Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Daten & Analytics

    Data Validation (ML)

    Aktualisiert: 11.2.2026

    Automatisierte Prüfung von Datenqualität, Schema-Konformität und statistischen Eigenschaften in ML-Pipelines.

    Kurz erklärt

    Data Validation prüft automatisiert Datenqualität und Schema in ML-Pipelines – Great Expectations und TFDV sind die Standardtools.

    Erklärung

    Data Validation in ML umfasst Schema-Validierung (Spaltentypen, Nullable), statistische Tests (Verteilungsänderungen, Ausreißer), Vollständigkeitschecks und referenzielle Integrität. Tools wie Great Expectations und TensorFlow Data Validation (TFDV) automatisieren diese Prüfungen.

    Relevanz für Marketing

    Data Validation verhindert den häufigsten ML-Fehler: schlechte Daten in Produktion.

    Häufige Fallstricke

    Nur Schema prüfen, nicht statistische Verteilungen. Keine Alerting-Integration. Validierung nur in Training, nicht in Serving.

    Entstehung & Geschichte

    Google veröffentlichte TensorFlow Data Validation (TFDV) 2018 als Teil von TFX. Great Expectations startete 2018 als Open-Source-Projekt für "expectation-based" Datenvalidierung. Beide Tools formalisierten Data Validation als MLOps-Disziplin.

    Abgrenzung & Vergleiche

    Data Validation (ML) vs. Data Quality

    Data Quality ist das Konzept; Data Validation ist die automatisierte Prüfung mit konkreten Tests und Assertions.

    Data Validation (ML) vs. Data Drift

    Data Drift erkennt Verteilungsänderungen über Zeit; Data Validation prüft Daten gegen definierte Erwartungen bei jedem Pipeline-Run.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!