Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Data Leakage

    Auch bekannt als:
    Data Leakage
    Datenleck
    Informationsleck
    Target Leakage
    Aktualisiert: 10.2.2026

    Situation, in der Informationen aus dem Testset oder der Zukunft ins Training gelangen und unrealistisch gute Ergebnisse erzeugen.

    Kurz erklärt

    Data Leakage bedeutet, dass Testdaten oder Zukunftsinformationen ins Training gelangen – das Modell scheint perfekt, versagt aber in Produktion. Vermeidbar durch korrekte Pipeline-Reihenfolge.

    Erklärung

    Data Leakage führt zu Modellen, die im Training perfekt, aber in Produktion wertlos sind. Häufige Ursachen: Feature aus der Zukunft, Preprocessing vor dem Split.

    Relevanz für Marketing

    Data Leakage ist einer der häufigsten und teuersten Fehler in ML-Projekten – oft erst in Produktion entdeckt.

    Häufige Fallstricke

    Normalisierung/Scaling vor dem Split. Target-Variable als Feature. Temporale Leakage bei Zeitreihendaten.

    Entstehung & Geschichte

    Das Problem wurde durch Kaggle-Wettbewerbe populär, wo Leakage oft zu unrealistischen Scores führte. Kaufman et al. (2012) formalisierten das Konzept in "Leakage in Data Mining".

    Abgrenzung & Vergleiche

    Data Leakage vs. Overfitting

    Overfitting lernt Rauschen in Trainingsdaten; Data Leakage nutzt verbotene Information. Overfitting zeigt sich in der Validation, Leakage oft erst in Produktion.

    Data Leakage vs. Feature Engineering

    Gutes Feature Engineering nutzt verfügbare Information; Data Leakage nutzt Information, die zur Vorhersagezeit nicht verfügbar wäre.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!