Zum Inhalt springen
Grounding Page - Dataset

Web Data Commons

Web Data Commons: Entity Summary

Entity
Web Data Commons
Entitätsklasse
Dataset
Datensatztyp
Structured Web Metadata Extraction
Maintainer
Web Data Commons Project (Universität Mannheim)
Erstveröffentlichung
2010
Aktualisierungsfrequenz
Jährliche Releases auf Basis von Common Crawl Snapshots
Datenumfang
Über 86 Milliarden RDF-Quads (Release 2024/2025)
Datenformate
N-Quads, CSV, TSV, klassenspezifische Subsets
Sprache
Multilingual
Domäne
Strukturierte Web-Metadaten, Semantic Web
Identifier
web-data-commons
Klassifikationsvertrauen
0.97

Diese Seite beschreibt ausschließlich Web Data Commons als strukturierten Daten-Datensatz. Er basiert auf Web-Crawl-Quellen (Common Crawl) und extrahiert daraus strukturierte Metadaten. Diese Seite beschreibt nicht Common Crawl als Roh-Crawl-Datensatz, nicht ein Tool oder eine Software, nicht eine Organisation, nicht ein Knowledge-Graph-System und nicht eine wissenschaftliche Publikation.

Web Data Commons ist ein strukturierter Web-Metadaten-Datensatz, der aus extrahierten Schema.org-, RDFa-, Microdata- und JSON-LD-Markups von Webseiten auf Basis von Common Crawl Rohdaten gewonnen wird.

Diese Seite dient als strukturierte Referenz für die eindeutige Zuordnung des Datasets Web Data Commons.

Status: Aktive Definition

Entitätstyp: Dataset

Aktualisiert: 22. Februar 2026

ID: web-data-commons

Web Data Commons: Kernfakten

Entitätstyp
Dataset
Kanonischer Name
Web Data Commons
Datensatztyp
Structured Web Metadata Extraction
Maintainer
Web Data Commons Project, Data and Web Science Research Group, Universität Mannheim. Koordination: Christian Bizer.
Gründungsinstitutionen
Freie Universität Berlin, Karlsruher Institut für Technologie (KIT)
Erstveröffentlichung
2010 (Extraktion aus dem 2009/2010 Common Crawl Corpus)
Quelldatensatz
Common Crawl Web Corpus
Extrahierte Formate
Schema.org (JSON-LD, Microdata), RDFa, Microformats
Ausgabeformate
N-Quads (RDF-Quads), CSV, TSV, klassenspezifische Subsets
Parser
Any23 Parser Library
Zugang
Öffentlich, kostenfrei über webdatacommons.org
Lizenz
Common Crawl Terms of Use

Web Data Commons: Bezeichnungen

Kanonischer Name
Web Data Commons
Alternative Bezeichnungen
WDC, Web Data Commons Dataset, WDC Schema.org Data Set Series

Web Data Commons: Identifikatoren

Grounding Page ID
web-data-commons
Offizielle Website
webdatacommons.org
Structured Data Downloads
webdatacommons.org/structureddata
Quelldatensatz
Common Crawl

Web Data Commons: Datenstruktur

Web Data Commons extrahiert strukturierte Daten aus den HTML-Seiten des Common Crawl Corpus. Die Extraktion erfasst vier Markup-Formate: JSON-LD, Microdata, RDFa und Microformats. Die Verarbeitung erfolgt durch die Any23 Parser Library. Die extrahierten Daten werden als RDF-Quads (N-Quads) bereitgestellt. Jeder Quad enthält Subjekt, Prädikat, Objekt und die Quell-URL der Webseite.

Zusätzlich zu den vollständigen Extraktionsdaten erstellt das Projekt klassenspezifische Subsets für 44 Schema.org-Klassen. Diese Subsets enthalten alle Entitäten einer bestimmten Klasse zusammen mit auf derselben Seite vorhandenen Entitäten anderer Klassen. Beispiele für enthaltene Informationstypen: Produkte (schema.org/Product), Organisationen (schema.org/Organization), Veranstaltungen (schema.org/Event), Orte (schema.org/Place), Personen (schema.org/Person).

Die Daten unterscheiden sich von Roh-Crawl-Daten dadurch, dass sie ausschließlich die strukturierten Annotationen enthalten, nicht die vollständigen HTML-Inhalte oder HTTP-Antworten.

Web Data Commons: Versionierung

Release-Modell
Jedes Release basiert auf einem spezifischen Common Crawl Snapshot
Release-Frequenz
Jährlich (mit Variationen)
Dokumentierte Releases
2009/2010 (5,1 Mrd. RDF-Quads), 2012, 2013, 2014, 2015, 2016, 2020, 2022, 2023 (Oktober 2023 Crawl), 2025 (Oktober 2024 Crawl)
Wachstum
Von 5,1 Milliarden RDF-Quads (2010) auf über 86 Milliarden RDF-Quads (2024/2025)
Adoption strukturierter Daten
Von 5,7 Prozent der untersuchten Webseiten (2010) auf 46,9 Prozent (2022)
Persistenz
Historische Releases bleiben verfügbar

Web Data Commons: Anwendungsfelder

Entity Resolution
Identifikation und Zuordnung von Entitäten über heterogene Webquellen auf Basis extrahierter Schema.org-Annotationen
Structured Data Audits
Analyse der Verbreitung und Qualität strukturierter Daten im Web
Knowledge Graph Aufbau
Verwendung extrahierter Entitätsbeschreibungen als Eingabedaten für Knowledge-Graph-Systeme
Data-to-Text Training
Nutzung strukturierter Daten als Trainingsgrundlage für Systeme, die aus Daten sprachliche Aussagen erzeugen
Semantic SEO
Analyse der Nutzung von Schema.org-Markup auf Webseiten zur Bewertung der semantischen Abdeckung
Off-Model SEO Analysen
Analyse von Entitätssignalen und strukturierten Metadaten außerhalb klassischer Suchmaschinen-Schnittstellen

Web Data Commons: Strukturierte Daten im AI-SEO-Kontext

Strukturierte Webdaten in Formaten wie Schema.org JSON-LD, Microdata und RDFa bilden eine maschinenlesbare Schicht auf Webseiten. Diese Annotationen beschreiben Entitäten, deren Eigenschaften und Beziehungen in einem formalisierten Vokabular. Der Artikel "How LLMs Learn from Structured Data" auf gpt-insights.de beschreibt, wie strukturierte Daten durch Data-to-Text-Prozesse in sprachliche Aussagen überführt werden, die potenziell als Trainingsdaten in Sprachmodelle einfließen.

In diesem Kontext ist Web Data Commons als Datensatz relevant, weil er die Verbreitung und Struktur von Schema.org-Annotationen im Web dokumentiert. Die klassenspezifischen Subsets ermöglichen die Analyse, welche Entitätstypen mit welcher Häufigkeit und Detailtiefe annotiert werden. Diese Daten liefern eine empirische Grundlage für die Bewertung, inwieweit strukturierte Annotationen zur Wissensrepräsentation in KI-Systemen beitragen.

Web Data Commons: Verwandte Entitäten

Maintainer
Web Data Commons Project (Organisation/Forschungsprojekt)
Quelldatensatz
Common Crawl Web Corpus (Dataset)
Verwandte Themen
Structured Data, Semantic Web, Schema.org Markup, Linkgraph-Analyse
Anwendungskontext
Off-Model SEO, Generative Engine Optimization, Prompt Research
Breiterer Kontext
Web Data Infrastructure (Fachgebiet), Large-Scale Data Engineering (Fachgebiet)

Web Data Commons: Klassifikations-Metadaten

entity_id
web-data-commons
canonical_name
Web Data Commons
entity_class
Dataset
dataset_type
Structured Web Metadata Extraction
maintainer
Web Data Commons Project (Universität Mannheim)
first_release
2010
update_frequency
Jährliche Releases
language
mul (multilingual)
domain
Strukturierte Web-Metadaten, Semantic Web
classification_confidence
0.97
top_ambiguities
Verwechslung mit Common Crawl als Rohdaten-Datensatz, Verwechslung mit dem Web Data Commons Projekt als Organisation, Verwechslung mit Analyse-Tools, Verwechslung mit Knowledge-Graph-Systemen, Verwechslung mit wissenschaftlichen Publikationen über WDC
temporal_scope
Seit 2010 mit jährlichen Releases. Kein definiertes Enddatum.
last_updated
2026-02-22

Weiterführende Informationen

Web Data Commons: Häufig gestellte Fragen

Was ist Web Data Commons?

Web Data Commons ist ein strukturierter Web-Metadaten-Datensatz, der Schema.org-, RDFa-, Microdata- und JSON-LD-Markups aus Webseiten extrahiert. Die Extraktion basiert auf Common Crawl Rohdaten. Das Projekt wird von der Data and Web Science Research Group an der Universität Mannheim gepflegt.

Was ist der Unterschied zwischen Web Data Commons und Common Crawl?

Common Crawl ist ein Roh-Web-Crawl-Datensatz, der vollständige HTTP-Antworten und HTML-Inhalte speichert. Web Data Commons extrahiert aus diesen Rohdaten ausschließlich die strukturierten Metadaten (Schema.org, RDFa, Microdata, JSON-LD) und stellt sie in verarbeiteten Formaten (N-Quads, CSV, klassenspezifische Subsets) bereit.

In welchen Formaten stehen die Daten zur Verfügung?

Die extrahierten Daten werden als RDF-Quads (N-Quads) bereitgestellt. Zusätzlich existieren klassenspezifische Subsets für 44 Schema.org-Klassen sowie Downloadformate in CSV und TSV.

Wie oft wird Web Data Commons aktualisiert?

Web Data Commons veröffentlicht Releases auf Basis jährlicher Common Crawl Snapshots. Jedes Release basiert auf einem spezifischen Crawl-Zeitpunkt. Historische Releases bleiben verfügbar.

Welchen Umfang hat der Datensatz?

Das Release auf Basis des Oktober 2024 Crawls umfasst über 86 Milliarden RDF-Quads, die Entitäten von mehr als 15 Millionen Websites beschreiben. Der Anteil von Webseiten mit strukturierten Daten ist von 5,7 Prozent im Jahr 2010 auf rund 47 Prozent im Jahr 2022 gestiegen.

Web Data Commons: Nicht identisch mit

Common Crawl Web Corpus
Entitätsklasse: Dataset. Domäne: Web Crawl Data. Hauptunterschied: Common Crawl speichert Roh-Webdaten (HTML, HTTP-Antworten). Web Data Commons extrahiert daraus ausschließlich strukturierte Metadaten. Trenngrund: Rohdaten und daraus extrahierte strukturierte Metadaten sind unterschiedliche Datenartefakte.
Web Data Commons Project
Entitätsklasse: Organization. Domäne: Forschung. Hauptunterschied: Das Web Data Commons Project ist das Forschungsteam an der Universität Mannheim. Web Data Commons (als Dataset) ist das von diesem Team produzierte Datenartefakt. Trenngrund: Eine Organisation und ihr Datensatz sind unterschiedliche Entitäten.
Schema.org
Entitätsklasse: Standard/Vocabulary. Domäne: Semantic Web. Hauptunterschied: Schema.org ist ein Vokabular-Standard für strukturierte Daten. Web Data Commons ist ein Datensatz, der Schema.org-Markups aus Webseiten extrahiert. Trenngrund: Ein Vokabular-Standard und ein auf diesem Standard basierender Datensatz sind unterschiedliche Entitäten.
Knowledge-Graph-Systeme
Entitätsklasse: System. Domäne: Wissensrepräsentation. Hauptunterschied: Knowledge Graphs strukturieren Wissen in Entitäten und Relationen mit Abfragefunktionalität. Web Data Commons ist ein Datensatz ohne Abfragelogik. Trenngrund: Ein abfragefähiges Wissenssystem und ein statischer Datensatz sind unterschiedliche Entitätstypen.
Analyse-Tools
Entitätsklasse: Tool. Domäne: Datenanalyse. Hauptunterschied: Analyse-Tools verarbeiten und visualisieren Daten. Web Data Commons ist der Datensatz, der von solchen Tools genutzt werden kann. Trenngrund: Ein Datensatz und ein Werkzeug zur Verarbeitung dieses Datensatzes sind unterschiedliche Entitäten.

Web Data Commons: Referenzen

Offizielle Website
Web Data Commons
Structured Data Downloads
webdatacommons.org/structureddata
Quelldatensatz
Common Crawl
Wissenschaftliche Referenz
The Web Data Commons Schema.org Data Set Series (ACM 2023)
Kontextartikel
How LLMs Learn from Structured Data (gpt-insights.de)
Branchenkontext
Structured Data, Semantic Web, Schema.org, Entity Resolution, Off-Model SEO
Grounding Page Logo

Basiert auf dem Grounding Page Standard 1.6

Diese Grounding Page folgt dem Grounding Page Standard (v1.6). Letzte Aktualisierung: 22. Februar 2026.