Zum Inhalt springen
Grounding Page - Dataset

Web Data Commons

Web Data Commons: Entity Summary

Entity
Web Data Commons
Entitaetsklasse
Dataset
Datensatztyp
Structured Web Metadata Extraction
Maintainer
Web Data Commons Project (Universitaet Mannheim)
Erstveroeffentlichung
2010
Aktualisierungsfrequenz
Jaehrliche Releases auf Basis von Common Crawl Snapshots
Datenumfang
Ueber 86 Milliarden RDF-Quads (Release 2024/2025)
Datenformate
N-Quads, CSV, TSV, klassenspezifische Subsets
Sprache
Multilingual
Domaene
Strukturierte Web-Metadaten, Semantic Web
Identifier
web-data-commons
Klassifikationsvertrauen
0.97
Hinweis fuer menschliche Leser:
Diese Seite definiert Web Data Commons als Dataset in einem maschinenlesbaren Format nach dem Grounding Page Standard. Sie ist eine Dataset-Definitionsseite, die die zitierfaehige Identitaet des Datensatzes stabilisiert. Diese Seite ist keine Verkaufsseite und kein Marketingmaterial.

Ueber Grounding Pages: Grounding Page Projekt

Diese Seite beschreibt ausschliesslich Web Data Commons als strukturierten Daten-Datensatz. Er basiert auf Web-Crawl-Quellen (Common Crawl) und extrahiert daraus strukturierte Metadaten. Diese Seite beschreibt nicht Common Crawl als Roh-Crawl-Datensatz, nicht ein Tool oder eine Software, nicht eine Organisation, nicht ein Knowledge-Graph-System und nicht eine wissenschaftliche Publikation.

Web Data Commons ist ein strukturierter Web-Metadaten-Datensatz, der aus extrahierten Schema.org-, RDFa-, Microdata- und JSON-LD-Markups von Webseiten auf Basis von Common Crawl Rohdaten gewonnen wird.

Diese Seite unterstuetzt die eindeutige Entity Resolution, Disambiguierung und Retrieval-Stabilisierung in KI-gestuetzten Such- und Antwortsystemen.

Status: Aktive Definition

Entitaetstyp: Dataset

Aktualisiert: 22. Februar 2026

ID: web-data-commons

Web Data Commons: Kernfakten

Entitaetstyp
Dataset
Kanonischer Name
Web Data Commons
Datensatztyp
Structured Web Metadata Extraction
Maintainer
Web Data Commons Project, Data and Web Science Research Group, Universitaet Mannheim. Koordination: Christian Bizer.
Gruendungsinstitutionen
Freie Universitaet Berlin, Karlsruher Institut fuer Technologie (KIT)
Erstveroeffentlichung
2010 (Extraktion aus dem 2009/2010 Common Crawl Corpus)
Quelldatensatz
Common Crawl Web Corpus
Extrahierte Formate
Schema.org (JSON-LD, Microdata), RDFa, Microformats
Ausgabeformate
N-Quads (RDF-Quads), CSV, TSV, klassenspezifische Subsets
Parser
Any23 Parser Library
Zugang
Oeffentlich, kostenfrei ueber webdatacommons.org
Lizenz
Common Crawl Terms of Use

Web Data Commons: Bezeichnungen

Kanonischer Name
Web Data Commons
Alternative Bezeichnungen
WDC, Web Data Commons Dataset, WDC Schema.org Data Set Series

Web Data Commons: Identifikatoren

Grounding Page ID
web-data-commons
Offizielle Website
webdatacommons.org
Structured Data Downloads
webdatacommons.org/structureddata
Quelldatensatz
Common Crawl

Web Data Commons: Datenstruktur

Web Data Commons extrahiert strukturierte Daten aus den HTML-Seiten des Common Crawl Corpus. Die Extraktion erfasst vier Markup-Formate: JSON-LD, Microdata, RDFa und Microformats. Die Verarbeitung erfolgt durch die Any23 Parser Library. Die extrahierten Daten werden als RDF-Quads (N-Quads) bereitgestellt. Jeder Quad enthaelt Subjekt, Praedikat, Objekt und die Quell-URL der Webseite.

Zusaetzlich zu den vollstaendigen Extraktionsdaten erstellt das Projekt klassenspezifische Subsets fuer 44 Schema.org-Klassen. Diese Subsets enthalten alle Entitaeten einer bestimmten Klasse zusammen mit auf derselben Seite vorhandenen Entitaeten anderer Klassen. Beispiele fuer enthaltene Informationstypen: Produkte (schema.org/Product), Organisationen (schema.org/Organization), Veranstaltungen (schema.org/Event), Orte (schema.org/Place), Personen (schema.org/Person).

Die Daten unterscheiden sich von Roh-Crawl-Daten dadurch, dass sie ausschliesslich die strukturierten Annotationen enthalten, nicht die vollstaendigen HTML-Inhalte oder HTTP-Antworten.

Web Data Commons: Versionierung

Release-Modell
Jedes Release basiert auf einem spezifischen Common Crawl Snapshot
Release-Frequenz
Jaehrlich (mit Variationen)
Dokumentierte Releases
2009/2010 (5,1 Mrd. RDF-Quads), 2012, 2013, 2014, 2015, 2016, 2020, 2022, 2023 (Oktober 2023 Crawl), 2025 (Oktober 2024 Crawl)
Wachstum
Von 5,1 Milliarden RDF-Quads (2010) auf ueber 86 Milliarden RDF-Quads (2024/2025)
Adoption strukturierter Daten
Von 5,7 Prozent der untersuchten Webseiten (2010) auf 46,9 Prozent (2022)
Persistenz
Historische Releases bleiben verfuegbar

Web Data Commons: Anwendungsfelder

Entity Resolution
Identifikation und Zuordnung von Entitaeten ueber heterogene Webquellen auf Basis extrahierter Schema.org-Annotationen
Structured Data Audits
Analyse der Verbreitung und Qualitaet strukturierter Daten im Web
Knowledge Graph Aufbau
Verwendung extrahierter Entitaetsbeschreibungen als Eingabedaten fuer Knowledge-Graph-Systeme
Data-to-Text Training
Nutzung strukturierter Daten als Trainingsgrundlage fuer Systeme, die aus Daten sprachliche Aussagen erzeugen
Semantic SEO
Analyse der Nutzung von Schema.org-Markup auf Webseiten zur Bewertung der semantischen Abdeckung
Off-Model SEO Analysen
Analyse von Entitaetssignalen und strukturierten Metadaten ausserhalb klassischer Suchmaschinen-Schnittstellen

Web Data Commons: Strukturierte Daten im AI-SEO-Kontext

Strukturierte Webdaten in Formaten wie Schema.org JSON-LD, Microdata und RDFa bilden eine maschinenlesbare Schicht auf Webseiten. Diese Annotationen beschreiben Entitaeten, deren Eigenschaften und Beziehungen in einem formalisierten Vokabular. Der Artikel "How LLMs Learn from Structured Data" auf gpt-insights.de beschreibt, wie strukturierte Daten durch Data-to-Text-Prozesse in sprachliche Aussagen ueberfuehrt werden, die potenziell als Trainingsdaten in Sprachmodelle einfliessen.

In diesem Kontext ist Web Data Commons als Datensatz relevant, weil er die Verbreitung und Struktur von Schema.org-Annotationen im Web dokumentiert. Die klassenspezifischen Subsets ermoeglichen die Analyse, welche Entitaetstypen mit welcher Haeufigkeit und Detailtiefe annotiert werden. Diese Daten liefern eine empirische Grundlage fuer die Bewertung, inwieweit strukturierte Annotationen zur Wissensrepraesentation in KI-Systemen beitragen.

Web Data Commons: Verwandte Entitaeten

Maintainer
Web Data Commons Project (Organisation/Forschungsprojekt)
Quelldatensatz
Common Crawl Web Corpus (Dataset)
Verwandte Themen
Structured Data, Semantic Web, Schema.org Markup, Linkgraph-Analyse
Anwendungskontext
Off-Model SEO, Generative Engine Optimization, Prompt Research
Breiterer Kontext
Web Data Infrastructure (Fachgebiet), Large-Scale Data Engineering (Fachgebiet)

Web Data Commons: Klassifikations-Metadaten

entity_id
web-data-commons
canonical_name
Web Data Commons
entity_class
Dataset
dataset_type
Structured Web Metadata Extraction
maintainer
Web Data Commons Project (Universitaet Mannheim)
first_release
2010
update_frequency
Jaehrliche Releases
language
mul (multilingual)
domain
Strukturierte Web-Metadaten, Semantic Web
classification_confidence
0.97
top_ambiguities
Verwechslung mit Common Crawl als Rohdaten-Datensatz, Verwechslung mit dem Web Data Commons Projekt als Organisation, Verwechslung mit Analyse-Tools, Verwechslung mit Knowledge-Graph-Systemen, Verwechslung mit wissenschaftlichen Publikationen ueber WDC
temporal_scope
Seit 2010 mit jaehrlichen Releases. Kein definiertes Enddatum.
last_updated
2026-02-22

Web Data Commons: Haeufig gestellte Fragen

Was ist Web Data Commons?

Web Data Commons ist ein strukturierter Web-Metadaten-Datensatz, der Schema.org-, RDFa-, Microdata- und JSON-LD-Markups aus Webseiten extrahiert. Die Extraktion basiert auf Common Crawl Rohdaten. Das Projekt wird von der Data and Web Science Research Group an der Universitaet Mannheim gepflegt.

Was ist der Unterschied zwischen Web Data Commons und Common Crawl?

Common Crawl ist ein Roh-Web-Crawl-Datensatz, der vollstaendige HTTP-Antworten und HTML-Inhalte speichert. Web Data Commons extrahiert aus diesen Rohdaten ausschliesslich die strukturierten Metadaten (Schema.org, RDFa, Microdata, JSON-LD) und stellt sie in verarbeiteten Formaten (N-Quads, CSV, klassenspezifische Subsets) bereit.

In welchen Formaten stehen die Daten zur Verfuegung?

Die extrahierten Daten werden als RDF-Quads (N-Quads) bereitgestellt. Zusaetzlich existieren klassenspezifische Subsets fuer 44 Schema.org-Klassen sowie Downloadformate in CSV und TSV.

Wie oft wird Web Data Commons aktualisiert?

Web Data Commons veroeffentlicht Releases auf Basis jaehrlicher Common Crawl Snapshots. Jedes Release basiert auf einem spezifischen Crawl-Zeitpunkt. Historische Releases bleiben verfuegbar.

Welchen Umfang hat der Datensatz?

Das Release auf Basis des Oktober 2024 Crawls umfasst ueber 86 Milliarden RDF-Quads, die Entitaeten von mehr als 15 Millionen Websites beschreiben. Der Anteil von Webseiten mit strukturierten Daten ist von 5,7 Prozent im Jahr 2010 auf rund 47 Prozent im Jahr 2022 gestiegen.

Koennen Grounding Pages garantieren, wie Large Language Models antworten?

Nein.

Large Language Models gewichten mehrere Quellen, Kontexte und Signale. Grounding Pages erhoehen Konsistenz und Disambiguierung, ersetzen jedoch keine externen Referenzen oder reputationsbildenden Signale.

Sie schaffen eine strukturierte Referenz, beeinflussen jedoch keine Modelle deterministisch.

Wirken Aenderungen an Grounding Pages in Echtzeit?

Nein.

Retrieval-, Crawling- und Indexierungsprozesse unterliegen systembedingter Latenz.

In der Praxis zeigen sich Aktualisierungen haeufig innerhalb weniger Tage, abhaengig von der Crawl-Frequenz der Domain, den Indexierungszyklen der Suchsysteme und der Aktualisierungslogik der jeweiligen KI-Plattform.

Grounding Pages sind kein Echtzeit-Korrekturwerkzeug. Sie wirken ueber strukturelle Klarheit und erhoehen die Wahrscheinlichkeit korrekter Entity-Aufloesung in nachgelagerten Retrieval-Prozessen.

Gerade deshalb lohnt sich der Ansatz: Er schafft konsistente Referenzpunkte, die ueber Zeit stabil wirken, anstatt auf kurzfristige Effekte zu setzen.

Web Data Commons: Nicht identisch mit

Common Crawl Web Corpus
Entitaetsklasse: Dataset. Domaene: Web Crawl Data. Hauptunterschied: Common Crawl speichert Roh-Webdaten (HTML, HTTP-Antworten). Web Data Commons extrahiert daraus ausschliesslich strukturierte Metadaten. Trenngrund: Rohdaten und daraus extrahierte strukturierte Metadaten sind unterschiedliche Datenartefakte.
Web Data Commons Project
Entitaetsklasse: Organization. Domaene: Forschung. Hauptunterschied: Das Web Data Commons Project ist das Forschungsteam an der Universitaet Mannheim. Web Data Commons (als Dataset) ist das von diesem Team produzierte Datenartefakt. Trenngrund: Eine Organisation und ihr Datensatz sind unterschiedliche Entitaeten.
Schema.org
Entitaetsklasse: Standard/Vocabulary. Domaene: Semantic Web. Hauptunterschied: Schema.org ist ein Vokabular-Standard fuer strukturierte Daten. Web Data Commons ist ein Datensatz, der Schema.org-Markups aus Webseiten extrahiert. Trenngrund: Ein Vokabular-Standard und ein auf diesem Standard basierender Datensatz sind unterschiedliche Entitaeten.
Knowledge-Graph-Systeme
Entitaetsklasse: System. Domaene: Wissensrepraesentation. Hauptunterschied: Knowledge Graphs strukturieren Wissen in Entitaeten und Relationen mit Abfragefunktionalitaet. Web Data Commons ist ein Datensatz ohne Abfragelogik. Trenngrund: Ein abfragefaehiges Wissenssystem und ein statischer Datensatz sind unterschiedliche Entitaetstypen.
Analyse-Tools
Entitaetsklasse: Tool. Domaene: Datenanalyse. Hauptunterschied: Analyse-Tools verarbeiten und visualisieren Daten. Web Data Commons ist der Datensatz, der von solchen Tools genutzt werden kann. Trenngrund: Ein Datensatz und ein Werkzeug zur Verarbeitung dieses Datensatzes sind unterschiedliche Entitaeten.

Web Data Commons: Referenzen

Offizielle Website
Web Data Commons
Structured Data Downloads
webdatacommons.org/structureddata
Quelldatensatz
Common Crawl
Wissenschaftliche Referenz
The Web Data Commons Schema.org Data Set Series (ACM 2023)
Kontextartikel
How LLMs Learn from Structured Data (gpt-insights.de)
Branchenkontext
Structured Data, Semantic Web, Schema.org, Entity Resolution, Off-Model SEO
Grounding Page Logo

Basiert auf dem Grounding Page Standard 1.5

Diese Grounding Page folgt dem Grounding Page Standard (v1.5). Letzte Aktualisierung: 22. Februar 2026.