Data Leakage
Situation, in der Informationen aus dem Testset oder der Zukunft ins Training gelangen und unrealistisch gute Ergebnisse erzeugen.
Data Leakage bedeutet, dass Testdaten oder Zukunftsinformationen ins Training gelangen – das Modell scheint perfekt, versagt aber in Produktion. Vermeidbar durch korrekte Pipeline-Reihenfolge.
Erklärung
Data Leakage führt zu Modellen, die im Training perfekt, aber in Produktion wertlos sind. Häufige Ursachen: Feature aus der Zukunft, Preprocessing vor dem Split.
Relevanz für Marketing
Data Leakage ist einer der häufigsten und teuersten Fehler in ML-Projekten – oft erst in Produktion entdeckt.
Häufige Fallstricke
Normalisierung/Scaling vor dem Split. Target-Variable als Feature. Temporale Leakage bei Zeitreihendaten.
Entstehung & Geschichte
Das Problem wurde durch Kaggle-Wettbewerbe populär, wo Leakage oft zu unrealistischen Scores führte. Kaufman et al. (2012) formalisierten das Konzept in "Leakage in Data Mining".
Abgrenzung & Vergleiche
Data Leakage vs. Overfitting
Overfitting lernt Rauschen in Trainingsdaten; Data Leakage nutzt verbotene Information. Overfitting zeigt sich in der Validation, Leakage oft erst in Produktion.
Data Leakage vs. Feature Engineering
Gutes Feature Engineering nutzt verfügbare Information; Data Leakage nutzt Information, die zur Vorhersagezeit nicht verfügbar wäre.