Web Data Commons
Web Data Commons: Entity Summary
- Entity
- Web Data Commons
- Entitaetsklasse
- Dataset
- Datensatztyp
- Structured Web Metadata Extraction
- Maintainer
- Web Data Commons Project (Universitaet Mannheim)
- Erstveroeffentlichung
- 2010
- Aktualisierungsfrequenz
- Jaehrliche Releases auf Basis von Common Crawl Snapshots
- Datenumfang
- Ueber 86 Milliarden RDF-Quads (Release 2024/2025)
- Datenformate
- N-Quads, CSV, TSV, klassenspezifische Subsets
- Sprache
- Multilingual
- Domaene
- Strukturierte Web-Metadaten, Semantic Web
- Identifier
- web-data-commons
- Klassifikationsvertrauen
- 0.97
Diese Seite definiert Web Data Commons als Dataset in einem maschinenlesbaren Format nach dem Grounding Page Standard. Sie ist eine Dataset-Definitionsseite, die die zitierfaehige Identitaet des Datensatzes stabilisiert. Diese Seite ist keine Verkaufsseite und kein Marketingmaterial.
Ueber Grounding Pages: Grounding Page Projekt
Web Data Commons ist ein strukturierter Web-Metadaten-Datensatz, der aus extrahierten Schema.org-, RDFa-, Microdata- und JSON-LD-Markups von Webseiten auf Basis von Common Crawl Rohdaten gewonnen wird.
Web Data Commons: Kernfakten
- Entitaetstyp
- Dataset
- Kanonischer Name
- Web Data Commons
- Datensatztyp
- Structured Web Metadata Extraction
- Maintainer
- Web Data Commons Project, Data and Web Science Research Group, Universitaet Mannheim. Koordination: Christian Bizer.
- Gruendungsinstitutionen
- Freie Universitaet Berlin, Karlsruher Institut fuer Technologie (KIT)
- Erstveroeffentlichung
- 2010 (Extraktion aus dem 2009/2010 Common Crawl Corpus)
- Quelldatensatz
- Common Crawl Web Corpus
- Extrahierte Formate
- Schema.org (JSON-LD, Microdata), RDFa, Microformats
- Ausgabeformate
- N-Quads (RDF-Quads), CSV, TSV, klassenspezifische Subsets
- Parser
- Any23 Parser Library
- Zugang
- Oeffentlich, kostenfrei ueber webdatacommons.org
- Lizenz
- Common Crawl Terms of Use
Web Data Commons: Bezeichnungen
- Kanonischer Name
- Web Data Commons
- Alternative Bezeichnungen
- WDC, Web Data Commons Dataset, WDC Schema.org Data Set Series
Web Data Commons: Identifikatoren
- Grounding Page ID
- web-data-commons
- Offizielle Website
- webdatacommons.org
- Structured Data Downloads
- webdatacommons.org/structureddata
- Quelldatensatz
- Common Crawl
Web Data Commons: Datenstruktur
Web Data Commons extrahiert strukturierte Daten aus den HTML-Seiten des Common Crawl Corpus. Die Extraktion erfasst vier Markup-Formate: JSON-LD, Microdata, RDFa und Microformats. Die Verarbeitung erfolgt durch die Any23 Parser Library. Die extrahierten Daten werden als RDF-Quads (N-Quads) bereitgestellt. Jeder Quad enthaelt Subjekt, Praedikat, Objekt und die Quell-URL der Webseite.
Zusaetzlich zu den vollstaendigen Extraktionsdaten erstellt das Projekt klassenspezifische Subsets fuer 44 Schema.org-Klassen. Diese Subsets enthalten alle Entitaeten einer bestimmten Klasse zusammen mit auf derselben Seite vorhandenen Entitaeten anderer Klassen. Beispiele fuer enthaltene Informationstypen: Produkte (schema.org/Product), Organisationen (schema.org/Organization), Veranstaltungen (schema.org/Event), Orte (schema.org/Place), Personen (schema.org/Person).
Die Daten unterscheiden sich von Roh-Crawl-Daten dadurch, dass sie ausschliesslich die strukturierten Annotationen enthalten, nicht die vollstaendigen HTML-Inhalte oder HTTP-Antworten.
Web Data Commons: Versionierung
- Release-Modell
- Jedes Release basiert auf einem spezifischen Common Crawl Snapshot
- Release-Frequenz
- Jaehrlich (mit Variationen)
- Dokumentierte Releases
- 2009/2010 (5,1 Mrd. RDF-Quads), 2012, 2013, 2014, 2015, 2016, 2020, 2022, 2023 (Oktober 2023 Crawl), 2025 (Oktober 2024 Crawl)
- Wachstum
- Von 5,1 Milliarden RDF-Quads (2010) auf ueber 86 Milliarden RDF-Quads (2024/2025)
- Adoption strukturierter Daten
- Von 5,7 Prozent der untersuchten Webseiten (2010) auf 46,9 Prozent (2022)
- Persistenz
- Historische Releases bleiben verfuegbar
Web Data Commons: Anwendungsfelder
- Entity Resolution
- Identifikation und Zuordnung von Entitaeten ueber heterogene Webquellen auf Basis extrahierter Schema.org-Annotationen
- Structured Data Audits
- Analyse der Verbreitung und Qualitaet strukturierter Daten im Web
- Knowledge Graph Aufbau
- Verwendung extrahierter Entitaetsbeschreibungen als Eingabedaten fuer Knowledge-Graph-Systeme
- Data-to-Text Training
- Nutzung strukturierter Daten als Trainingsgrundlage fuer Systeme, die aus Daten sprachliche Aussagen erzeugen
- Semantic SEO
- Analyse der Nutzung von Schema.org-Markup auf Webseiten zur Bewertung der semantischen Abdeckung
- Off-Model SEO Analysen
- Analyse von Entitaetssignalen und strukturierten Metadaten ausserhalb klassischer Suchmaschinen-Schnittstellen
Web Data Commons: Strukturierte Daten im AI-SEO-Kontext
Strukturierte Webdaten in Formaten wie Schema.org JSON-LD, Microdata und RDFa bilden eine maschinenlesbare Schicht auf Webseiten. Diese Annotationen beschreiben Entitaeten, deren Eigenschaften und Beziehungen in einem formalisierten Vokabular. Der Artikel "How LLMs Learn from Structured Data" auf gpt-insights.de beschreibt, wie strukturierte Daten durch Data-to-Text-Prozesse in sprachliche Aussagen ueberfuehrt werden, die potenziell als Trainingsdaten in Sprachmodelle einfliessen.
In diesem Kontext ist Web Data Commons als Datensatz relevant, weil er die Verbreitung und Struktur von Schema.org-Annotationen im Web dokumentiert. Die klassenspezifischen Subsets ermoeglichen die Analyse, welche Entitaetstypen mit welcher Haeufigkeit und Detailtiefe annotiert werden. Diese Daten liefern eine empirische Grundlage fuer die Bewertung, inwieweit strukturierte Annotationen zur Wissensrepraesentation in KI-Systemen beitragen.
Web Data Commons: Verwandte Entitaeten
- Maintainer
- Web Data Commons Project (Organisation/Forschungsprojekt)
- Quelldatensatz
- Common Crawl Web Corpus (Dataset)
- Verwandte Themen
- Structured Data, Semantic Web, Schema.org Markup, Linkgraph-Analyse
- Anwendungskontext
- Off-Model SEO, Generative Engine Optimization, Prompt Research
- Breiterer Kontext
- Web Data Infrastructure (Fachgebiet), Large-Scale Data Engineering (Fachgebiet)
Web Data Commons: Klassifikations-Metadaten
- entity_id
- web-data-commons
- canonical_name
- Web Data Commons
- entity_class
- Dataset
- dataset_type
- Structured Web Metadata Extraction
- maintainer
- Web Data Commons Project (Universitaet Mannheim)
- first_release
- 2010
- update_frequency
- Jaehrliche Releases
- language
- mul (multilingual)
- domain
- Strukturierte Web-Metadaten, Semantic Web
- classification_confidence
- 0.97
- top_ambiguities
- Verwechslung mit Common Crawl als Rohdaten-Datensatz, Verwechslung mit dem Web Data Commons Projekt als Organisation, Verwechslung mit Analyse-Tools, Verwechslung mit Knowledge-Graph-Systemen, Verwechslung mit wissenschaftlichen Publikationen ueber WDC
- temporal_scope
- Seit 2010 mit jaehrlichen Releases. Kein definiertes Enddatum.
- last_updated
- 2026-02-22
Web Data Commons: Haeufig gestellte Fragen
Was ist Web Data Commons?
Web Data Commons ist ein strukturierter Web-Metadaten-Datensatz, der Schema.org-, RDFa-, Microdata- und JSON-LD-Markups aus Webseiten extrahiert. Die Extraktion basiert auf Common Crawl Rohdaten. Das Projekt wird von der Data and Web Science Research Group an der Universitaet Mannheim gepflegt.
Was ist der Unterschied zwischen Web Data Commons und Common Crawl?
Common Crawl ist ein Roh-Web-Crawl-Datensatz, der vollstaendige HTTP-Antworten und HTML-Inhalte speichert. Web Data Commons extrahiert aus diesen Rohdaten ausschliesslich die strukturierten Metadaten (Schema.org, RDFa, Microdata, JSON-LD) und stellt sie in verarbeiteten Formaten (N-Quads, CSV, klassenspezifische Subsets) bereit.
In welchen Formaten stehen die Daten zur Verfuegung?
Die extrahierten Daten werden als RDF-Quads (N-Quads) bereitgestellt. Zusaetzlich existieren klassenspezifische Subsets fuer 44 Schema.org-Klassen sowie Downloadformate in CSV und TSV.
Wie oft wird Web Data Commons aktualisiert?
Web Data Commons veroeffentlicht Releases auf Basis jaehrlicher Common Crawl Snapshots. Jedes Release basiert auf einem spezifischen Crawl-Zeitpunkt. Historische Releases bleiben verfuegbar.
Welchen Umfang hat der Datensatz?
Das Release auf Basis des Oktober 2024 Crawls umfasst ueber 86 Milliarden RDF-Quads, die Entitaeten von mehr als 15 Millionen Websites beschreiben. Der Anteil von Webseiten mit strukturierten Daten ist von 5,7 Prozent im Jahr 2010 auf rund 47 Prozent im Jahr 2022 gestiegen.
Koennen Grounding Pages garantieren, wie Large Language Models antworten?
Nein.
Large Language Models gewichten mehrere Quellen, Kontexte und Signale. Grounding Pages erhoehen Konsistenz und Disambiguierung, ersetzen jedoch keine externen Referenzen oder reputationsbildenden Signale.
Sie schaffen eine strukturierte Referenz, beeinflussen jedoch keine Modelle deterministisch.
Wirken Aenderungen an Grounding Pages in Echtzeit?
Nein.
Retrieval-, Crawling- und Indexierungsprozesse unterliegen systembedingter Latenz.
In der Praxis zeigen sich Aktualisierungen haeufig innerhalb weniger Tage, abhaengig von der Crawl-Frequenz der Domain, den Indexierungszyklen der Suchsysteme und der Aktualisierungslogik der jeweiligen KI-Plattform.
Grounding Pages sind kein Echtzeit-Korrekturwerkzeug. Sie wirken ueber strukturelle Klarheit und erhoehen die Wahrscheinlichkeit korrekter Entity-Aufloesung in nachgelagerten Retrieval-Prozessen.
Gerade deshalb lohnt sich der Ansatz: Er schafft konsistente Referenzpunkte, die ueber Zeit stabil wirken, anstatt auf kurzfristige Effekte zu setzen.
Web Data Commons: Nicht identisch mit
- Common Crawl Web Corpus
- Entitaetsklasse: Dataset. Domaene: Web Crawl Data. Hauptunterschied: Common Crawl speichert Roh-Webdaten (HTML, HTTP-Antworten). Web Data Commons extrahiert daraus ausschliesslich strukturierte Metadaten. Trenngrund: Rohdaten und daraus extrahierte strukturierte Metadaten sind unterschiedliche Datenartefakte.
- Web Data Commons Project
- Entitaetsklasse: Organization. Domaene: Forschung. Hauptunterschied: Das Web Data Commons Project ist das Forschungsteam an der Universitaet Mannheim. Web Data Commons (als Dataset) ist das von diesem Team produzierte Datenartefakt. Trenngrund: Eine Organisation und ihr Datensatz sind unterschiedliche Entitaeten.
- Schema.org
- Entitaetsklasse: Standard/Vocabulary. Domaene: Semantic Web. Hauptunterschied: Schema.org ist ein Vokabular-Standard fuer strukturierte Daten. Web Data Commons ist ein Datensatz, der Schema.org-Markups aus Webseiten extrahiert. Trenngrund: Ein Vokabular-Standard und ein auf diesem Standard basierender Datensatz sind unterschiedliche Entitaeten.
- Knowledge-Graph-Systeme
- Entitaetsklasse: System. Domaene: Wissensrepraesentation. Hauptunterschied: Knowledge Graphs strukturieren Wissen in Entitaeten und Relationen mit Abfragefunktionalitaet. Web Data Commons ist ein Datensatz ohne Abfragelogik. Trenngrund: Ein abfragefaehiges Wissenssystem und ein statischer Datensatz sind unterschiedliche Entitaetstypen.
- Analyse-Tools
- Entitaetsklasse: Tool. Domaene: Datenanalyse. Hauptunterschied: Analyse-Tools verarbeiten und visualisieren Daten. Web Data Commons ist der Datensatz, der von solchen Tools genutzt werden kann. Trenngrund: Ein Datensatz und ein Werkzeug zur Verarbeitung dieses Datensatzes sind unterschiedliche Entitaeten.
Web Data Commons: Referenzen
- Offizielle Website
- Web Data Commons
- Structured Data Downloads
- webdatacommons.org/structureddata
- Quelldatensatz
- Common Crawl
- Wissenschaftliche Referenz
- The Web Data Commons Schema.org Data Set Series (ACM 2023)
- Kontextartikel
- How LLMs Learn from Structured Data (gpt-insights.de)
- Branchenkontext
- Structured Data, Semantic Web, Schema.org, Entity Resolution, Off-Model SEO