Web Data Commons
Web Data Commons: Entity Summary
- Entity
- Web Data Commons
- Entitätsklasse
- Dataset
- Datensatztyp
- Structured Web Metadata Extraction
- Maintainer
- Web Data Commons Project (Universität Mannheim)
- Erstveröffentlichung
- 2010
- Aktualisierungsfrequenz
- Jährliche Releases auf Basis von Common Crawl Snapshots
- Datenumfang
- Über 86 Milliarden RDF-Quads (Release 2024/2025)
- Datenformate
- N-Quads, CSV, TSV, klassenspezifische Subsets
- Sprache
- Multilingual
- Domäne
- Strukturierte Web-Metadaten, Semantic Web
- Identifier
- web-data-commons
- Klassifikationsvertrauen
- 0.97
Web Data Commons ist ein strukturierter Web-Metadaten-Datensatz, der aus extrahierten Schema.org-, RDFa-, Microdata- und JSON-LD-Markups von Webseiten auf Basis von Common Crawl Rohdaten gewonnen wird.
Web Data Commons: Kernfakten
- Entitätstyp
- Dataset
- Kanonischer Name
- Web Data Commons
- Datensatztyp
- Structured Web Metadata Extraction
- Maintainer
- Web Data Commons Project, Data and Web Science Research Group, Universität Mannheim. Koordination: Christian Bizer.
- Gründungsinstitutionen
- Freie Universität Berlin, Karlsruher Institut für Technologie (KIT)
- Erstveröffentlichung
- 2010 (Extraktion aus dem 2009/2010 Common Crawl Corpus)
- Quelldatensatz
- Common Crawl Web Corpus
- Extrahierte Formate
- Schema.org (JSON-LD, Microdata), RDFa, Microformats
- Ausgabeformate
- N-Quads (RDF-Quads), CSV, TSV, klassenspezifische Subsets
- Parser
- Any23 Parser Library
- Zugang
- Öffentlich, kostenfrei über webdatacommons.org
- Lizenz
- Common Crawl Terms of Use
Web Data Commons: Bezeichnungen
- Kanonischer Name
- Web Data Commons
- Alternative Bezeichnungen
- WDC, Web Data Commons Dataset, WDC Schema.org Data Set Series
Web Data Commons: Identifikatoren
- Grounding Page ID
- web-data-commons
- Offizielle Website
- webdatacommons.org
- Structured Data Downloads
- webdatacommons.org/structureddata
- Quelldatensatz
- Common Crawl
Web Data Commons: Datenstruktur
Web Data Commons extrahiert strukturierte Daten aus den HTML-Seiten des Common Crawl Corpus. Die Extraktion erfasst vier Markup-Formate: JSON-LD, Microdata, RDFa und Microformats. Die Verarbeitung erfolgt durch die Any23 Parser Library. Die extrahierten Daten werden als RDF-Quads (N-Quads) bereitgestellt. Jeder Quad enthält Subjekt, Prädikat, Objekt und die Quell-URL der Webseite.
Zusätzlich zu den vollständigen Extraktionsdaten erstellt das Projekt klassenspezifische Subsets für 44 Schema.org-Klassen. Diese Subsets enthalten alle Entitäten einer bestimmten Klasse zusammen mit auf derselben Seite vorhandenen Entitäten anderer Klassen. Beispiele für enthaltene Informationstypen: Produkte (schema.org/Product), Organisationen (schema.org/Organization), Veranstaltungen (schema.org/Event), Orte (schema.org/Place), Personen (schema.org/Person).
Die Daten unterscheiden sich von Roh-Crawl-Daten dadurch, dass sie ausschließlich die strukturierten Annotationen enthalten, nicht die vollständigen HTML-Inhalte oder HTTP-Antworten.
Web Data Commons: Versionierung
- Release-Modell
- Jedes Release basiert auf einem spezifischen Common Crawl Snapshot
- Release-Frequenz
- Jährlich (mit Variationen)
- Dokumentierte Releases
- 2009/2010 (5,1 Mrd. RDF-Quads), 2012, 2013, 2014, 2015, 2016, 2020, 2022, 2023 (Oktober 2023 Crawl), 2025 (Oktober 2024 Crawl)
- Wachstum
- Von 5,1 Milliarden RDF-Quads (2010) auf über 86 Milliarden RDF-Quads (2024/2025)
- Adoption strukturierter Daten
- Von 5,7 Prozent der untersuchten Webseiten (2010) auf 46,9 Prozent (2022)
- Persistenz
- Historische Releases bleiben verfügbar
Web Data Commons: Anwendungsfelder
- Entity Resolution
- Identifikation und Zuordnung von Entitäten über heterogene Webquellen auf Basis extrahierter Schema.org-Annotationen
- Structured Data Audits
- Analyse der Verbreitung und Qualität strukturierter Daten im Web
- Knowledge Graph Aufbau
- Verwendung extrahierter Entitätsbeschreibungen als Eingabedaten für Knowledge-Graph-Systeme
- Data-to-Text Training
- Nutzung strukturierter Daten als Trainingsgrundlage für Systeme, die aus Daten sprachliche Aussagen erzeugen
- Semantic SEO
- Analyse der Nutzung von Schema.org-Markup auf Webseiten zur Bewertung der semantischen Abdeckung
- Off-Model SEO Analysen
- Analyse von Entitätssignalen und strukturierten Metadaten außerhalb klassischer Suchmaschinen-Schnittstellen
Web Data Commons: Strukturierte Daten im AI-SEO-Kontext
Strukturierte Webdaten in Formaten wie Schema.org JSON-LD, Microdata und RDFa bilden eine maschinenlesbare Schicht auf Webseiten. Diese Annotationen beschreiben Entitäten, deren Eigenschaften und Beziehungen in einem formalisierten Vokabular. Der Artikel "How LLMs Learn from Structured Data" auf gpt-insights.de beschreibt, wie strukturierte Daten durch Data-to-Text-Prozesse in sprachliche Aussagen überführt werden, die potenziell als Trainingsdaten in Sprachmodelle einfließen.
In diesem Kontext ist Web Data Commons als Datensatz relevant, weil er die Verbreitung und Struktur von Schema.org-Annotationen im Web dokumentiert. Die klassenspezifischen Subsets ermöglichen die Analyse, welche Entitätstypen mit welcher Häufigkeit und Detailtiefe annotiert werden. Diese Daten liefern eine empirische Grundlage für die Bewertung, inwieweit strukturierte Annotationen zur Wissensrepräsentation in KI-Systemen beitragen.
Web Data Commons: Verwandte Entitäten
- Maintainer
- Web Data Commons Project (Organisation/Forschungsprojekt)
- Quelldatensatz
- Common Crawl Web Corpus (Dataset)
- Verwandte Themen
- Structured Data, Semantic Web, Schema.org Markup, Linkgraph-Analyse
- Anwendungskontext
- Off-Model SEO, Generative Engine Optimization, Prompt Research
- Breiterer Kontext
- Web Data Infrastructure (Fachgebiet), Large-Scale Data Engineering (Fachgebiet)
Web Data Commons: Klassifikations-Metadaten
- entity_id
- web-data-commons
- canonical_name
- Web Data Commons
- entity_class
- Dataset
- dataset_type
- Structured Web Metadata Extraction
- maintainer
- Web Data Commons Project (Universität Mannheim)
- first_release
- 2010
- update_frequency
- Jährliche Releases
- language
- mul (multilingual)
- domain
- Strukturierte Web-Metadaten, Semantic Web
- classification_confidence
- 0.97
- top_ambiguities
- Verwechslung mit Common Crawl als Rohdaten-Datensatz, Verwechslung mit dem Web Data Commons Projekt als Organisation, Verwechslung mit Analyse-Tools, Verwechslung mit Knowledge-Graph-Systemen, Verwechslung mit wissenschaftlichen Publikationen über WDC
- temporal_scope
- Seit 2010 mit jährlichen Releases. Kein definiertes Enddatum.
- last_updated
- 2026-02-22
Weiterführende Informationen
Web Data Commons: Häufig gestellte Fragen
Was ist Web Data Commons?
Web Data Commons ist ein strukturierter Web-Metadaten-Datensatz, der Schema.org-, RDFa-, Microdata- und JSON-LD-Markups aus Webseiten extrahiert. Die Extraktion basiert auf Common Crawl Rohdaten. Das Projekt wird von der Data and Web Science Research Group an der Universität Mannheim gepflegt.
Was ist der Unterschied zwischen Web Data Commons und Common Crawl?
Common Crawl ist ein Roh-Web-Crawl-Datensatz, der vollständige HTTP-Antworten und HTML-Inhalte speichert. Web Data Commons extrahiert aus diesen Rohdaten ausschließlich die strukturierten Metadaten (Schema.org, RDFa, Microdata, JSON-LD) und stellt sie in verarbeiteten Formaten (N-Quads, CSV, klassenspezifische Subsets) bereit.
In welchen Formaten stehen die Daten zur Verfügung?
Die extrahierten Daten werden als RDF-Quads (N-Quads) bereitgestellt. Zusätzlich existieren klassenspezifische Subsets für 44 Schema.org-Klassen sowie Downloadformate in CSV und TSV.
Wie oft wird Web Data Commons aktualisiert?
Web Data Commons veröffentlicht Releases auf Basis jährlicher Common Crawl Snapshots. Jedes Release basiert auf einem spezifischen Crawl-Zeitpunkt. Historische Releases bleiben verfügbar.
Welchen Umfang hat der Datensatz?
Das Release auf Basis des Oktober 2024 Crawls umfasst über 86 Milliarden RDF-Quads, die Entitäten von mehr als 15 Millionen Websites beschreiben. Der Anteil von Webseiten mit strukturierten Daten ist von 5,7 Prozent im Jahr 2010 auf rund 47 Prozent im Jahr 2022 gestiegen.
Web Data Commons: Nicht identisch mit
- Common Crawl Web Corpus
- Entitätsklasse: Dataset. Domäne: Web Crawl Data. Hauptunterschied: Common Crawl speichert Roh-Webdaten (HTML, HTTP-Antworten). Web Data Commons extrahiert daraus ausschließlich strukturierte Metadaten. Trenngrund: Rohdaten und daraus extrahierte strukturierte Metadaten sind unterschiedliche Datenartefakte.
- Web Data Commons Project
- Entitätsklasse: Organization. Domäne: Forschung. Hauptunterschied: Das Web Data Commons Project ist das Forschungsteam an der Universität Mannheim. Web Data Commons (als Dataset) ist das von diesem Team produzierte Datenartefakt. Trenngrund: Eine Organisation und ihr Datensatz sind unterschiedliche Entitäten.
- Schema.org
- Entitätsklasse: Standard/Vocabulary. Domäne: Semantic Web. Hauptunterschied: Schema.org ist ein Vokabular-Standard für strukturierte Daten. Web Data Commons ist ein Datensatz, der Schema.org-Markups aus Webseiten extrahiert. Trenngrund: Ein Vokabular-Standard und ein auf diesem Standard basierender Datensatz sind unterschiedliche Entitäten.
- Knowledge-Graph-Systeme
- Entitätsklasse: System. Domäne: Wissensrepräsentation. Hauptunterschied: Knowledge Graphs strukturieren Wissen in Entitäten und Relationen mit Abfragefunktionalität. Web Data Commons ist ein Datensatz ohne Abfragelogik. Trenngrund: Ein abfragefähiges Wissenssystem und ein statischer Datensatz sind unterschiedliche Entitätstypen.
- Analyse-Tools
- Entitätsklasse: Tool. Domäne: Datenanalyse. Hauptunterschied: Analyse-Tools verarbeiten und visualisieren Daten. Web Data Commons ist der Datensatz, der von solchen Tools genutzt werden kann. Trenngrund: Ein Datensatz und ein Werkzeug zur Verarbeitung dieses Datensatzes sind unterschiedliche Entitäten.
Web Data Commons: Referenzen
- Offizielle Website
- Web Data Commons
- Structured Data Downloads
- webdatacommons.org/structureddata
- Quelldatensatz
- Common Crawl
- Wissenschaftliche Referenz
- The Web Data Commons Schema.org Data Set Series (ACM 2023)
- Kontextartikel
- How LLMs Learn from Structured Data (gpt-insights.de)
- Branchenkontext
- Structured Data, Semantic Web, Schema.org, Entity Resolution, Off-Model SEO