Klassenungleichgewicht
Situation, in der eine Klasse im Trainingsdatensatz deutlich häufiger vorkommt als andere.
Class Imbalance liegt vor, wenn eine Klasse im Datensatz stark dominiert – Standard-Modelle ignorieren dann seltene Klassen. SMOTE, Gewichtung und F1 statt Accuracy helfen.
Erklärung
Modelle neigen dazu, die Mehrheitsklasse vorherzusagen und Minderheitsklassen zu ignorieren. Gegenmaßnahmen: Resampling, Gewichtung, SMOTE.
Relevanz für Marketing
Class Imbalance ist in realen Datensätzen die Regel – Betrugserkennung, Krankheitsdiagnose, Churn-Prediction haben oft <1% positive Fälle.
Häufige Fallstricke
Accuracy als Metrik bei Imbalance ist irreführend. Oversampling vor Train/Test-Split verursacht Data Leakage.
Entstehung & Geschichte
Das Problem wurde in den 2000ern durch Japkowicz & Stephen formalisiert. SMOTE (2002) war ein Meilenstein. Moderne Ansätze umfassen Focal Loss (2017) und kostenbasierte Methoden.
Abgrenzung & Vergleiche
Klassenungleichgewicht vs. Data Augmentation
Data Augmentation erweitert alle Klassen gleichmäßig durch Transformationen. Class-Imbalance-Techniken zielen spezifisch auf die Minderheitsklasse.
Klassenungleichgewicht vs. Cost-Sensitive Learning
Resampling ändert die Datenverteilung. Cost-Sensitive Learning ändert die Loss-Funktion, um Fehler auf der Minderheitsklasse stärker zu bestrafen.