SMOTE
Algorithmus, der synthetische Beispiele für die Minderheitsklasse erzeugt, indem er zwischen existierenden Datenpunkten interpoliert.
SMOTE erzeugt synthetische Datenpunkte für unterrepräsentierte Klassen durch Interpolation zwischen Nachbarn – die Standard-Lösung gegen Class Imbalance.
Erklärung
SMOTE wählt einen Datenpunkt, findet seine k nächsten Nachbarn der gleichen Klasse und erzeugt neue Punkte auf der Verbindungslinie.
Relevanz für Marketing
SMOTE ist die meistgenutzte Technik gegen Class Imbalance und in vielen ML-Libraries standardmäßig verfügbar.
Häufige Fallstricke
SMOTE vor dem Train/Test-Split anwenden führt zu Leakage. Funktioniert schlecht bei hochdimensionalen oder überlappenden Klassen.
Entstehung & Geschichte
Eingeführt 2002 von Chawla, Bowyer, Hall & Kegelmeyer. Seitdem sind Varianten wie Borderline-SMOTE, ADASYN und SMOTE-ENN entstanden.
Abgrenzung & Vergleiche
SMOTE vs. Random Oversampling
Random Oversampling dupliziert vorhandene Punkte exakt; SMOTE erzeugt neue synthetische Punkte und vermeidet so exakte Duplikate.
SMOTE vs. ADASYN
SMOTE sampelt gleichmäßig; ADASYN fokussiert auf schwer zu klassifizierende Regionen und erzeugt dort mehr synthetische Punkte.