Data Validation (ML)
Automatisierte Prüfung von Datenqualität, Schema-Konformität und statistischen Eigenschaften in ML-Pipelines.
Data Validation prüft automatisiert Datenqualität und Schema in ML-Pipelines – Great Expectations und TFDV sind die Standardtools.
Erklärung
Data Validation in ML umfasst Schema-Validierung (Spaltentypen, Nullable), statistische Tests (Verteilungsänderungen, Ausreißer), Vollständigkeitschecks und referenzielle Integrität. Tools wie Great Expectations und TensorFlow Data Validation (TFDV) automatisieren diese Prüfungen.
Relevanz für Marketing
Data Validation verhindert den häufigsten ML-Fehler: schlechte Daten in Produktion.
Häufige Fallstricke
Nur Schema prüfen, nicht statistische Verteilungen. Keine Alerting-Integration. Validierung nur in Training, nicht in Serving.
Entstehung & Geschichte
Google veröffentlichte TensorFlow Data Validation (TFDV) 2018 als Teil von TFX. Great Expectations startete 2018 als Open-Source-Projekt für "expectation-based" Datenvalidierung. Beide Tools formalisierten Data Validation als MLOps-Disziplin.
Abgrenzung & Vergleiche
Data Validation (ML) vs. Data Quality
Data Quality ist das Konzept; Data Validation ist die automatisierte Prüfung mit konkreten Tests und Assertions.
Data Validation (ML) vs. Data Drift
Data Drift erkennt Verteilungsänderungen über Zeit; Data Validation prüft Daten gegen definierte Erwartungen bei jedem Pipeline-Run.