Stratifizierte Stichprobe
Sampling-Methode, die sicherstellt, dass die Proportionen der Klassen/Gruppen im Sample der Gesamtverteilung entsprechen.
Stratified Sampling erhält die Klassenverteilung beim Aufteilen von Daten – unverzichtbar bei Class Imbalance, damit seltene Klassen in jedem Split repräsentiert sind.
Erklärung
Besonders wichtig bei Class Imbalance: verhindert, dass seltene Klassen im Test- oder Validierungsset unter- oder überrepräsentiert sind.
Relevanz für Marketing
Stratified Sampling ist Standard bei Train/Test-Splits und K-Fold CV, um repräsentative Evaluationen sicherzustellen.
Häufige Fallstricke
Bei sehr seltenen Klassen kann Stratifizierung schwierig werden. Mehrfach-Labels erfordern spezielle Stratifizierungsmethoden.
Entstehung & Geschichte
Die Methode stammt aus der Umfragestatistik (Neyman 1934). In ML wurde sie zum Standard durch Scikit-learn und ist default in StratifiedKFold und train_test_split.
Abgrenzung & Vergleiche
Stratifizierte Stichprobe vs. Random Sampling
Random Sampling kann zufällig seltene Klassen ausschließen; Stratified Sampling garantiert proportionale Vertretung jeder Klasse.
Stratifizierte Stichprobe vs. Oversampling
Stratified Sampling bewahrt Proportionen; Oversampling verändert sie absichtlich, um Minderheitsklassen zu stärken.