Datasheets for Datasets
Standardisierte Dokumentation für ML-Datensätze, die Herkunft, Zusammensetzung, Erhebungsmethoden, empfohlene Verwendung und bekannte Limitierungen beschreibt.
Datasheets for Datasets dokumentieren ML-Datensätze standardisiert – wie Beipackzettel für Daten, essenziell für Bias-Audits und Compliance.
Erklärung
Inspiriert von Datenblättern in der Elektronik-Industrie. Enthält: Motivation, Zusammensetzung, Erhebungsprozess, Preprocessing, Nutzungsempfehlungen, Distribution, Wartung. Google nennt es "Data Cards", Hugging Face integriert es als Dataset Cards.
Relevanz für Marketing
Grundlage für verantwortungsvolle AI: Ohne Datensatz-Dokumentation sind Bias-Audits, Reproduzierbarkeit und Compliance unmöglich.
Häufige Fallstricke
Datasheets oft lückenhaft oder veraltet. Kein verbindlicher Standard. Aufwand wird unterschätzt. Datasheets existieren, werden aber nicht gelesen.
Entstehung & Geschichte
Gebru et al. schlugen Datasheets for Datasets 2018 vor. Google führte Data Cards ein, Hugging Face standardisierte Dataset Cards. Der EU AI Act fordert vergleichbare Dokumentation für Hochrisiko-Training-Daten.
Abgrenzung & Vergleiche
Datasheets for Datasets vs. Model Cards
Model Cards dokumentieren das Modell (Architektur, Performance, Bias); Datasheets dokumentieren den Datensatz (Herkunft, Zusammensetzung, Limitierungen).
Datasheets for Datasets vs. Data Governance
Data Governance ist der Prozess; Datasheets sind das Dokumentations-Artefakt innerhalb dieses Prozesses.