Stochastic Weight Averaging (SWA)
Trainingstechnik, die Modellgewichte über mehrere Checkpoints mittelt, um flachere Minima und bessere Generalisierung zu finden.
SWA mittelt Gewichte über Trainings-Checkpoints – kostenlose Generalisierungsverbesserung ohne Inference-Overhead, findet flachere Minima.
Erklärung
Am Ende des normalen Trainings wird mit einer zyklischen oder konstanten LR weiter trainiert und die Gewichte werden gemittelt. Das Ensemble-Ergebnis liegt typisch in einer flacheren Region der Loss Landscape.
Relevanz für Marketing
SWA ist eine kostenlose Generalisierungsverbesserung – kein zusätzlicher Inference-Aufwand (ein Modell), nur etwas mehr Training.
Häufige Fallstricke
Batch Normalization muss nach dem Averaging neu berechnet werden. Nicht immer effektiv bei bereits optimal getuneten Modellen.
Entstehung & Geschichte
Izmailov et al. (2018) zeigten, dass einfache Gewichtsmittelung am Ende des Trainings konsistent bessere Generalisierung liefert. PyTorch integrierte SWA als offizielle Optimizer-Erweiterung.
Abgrenzung & Vergleiche
Stochastic Weight Averaging (SWA) vs. Model Ensemble
Ensemble: mehrere Modelle bei Inference (N× Kosten). SWA: ein gemitteltes Modell bei Inference (1× Kosten, ähnlicher Effekt).
Stochastic Weight Averaging (SWA) vs. EMA (Exponential Moving Average)
SWA mittelt diskrete Checkpoints gleichgewichtet; EMA mittelt kontinuierlich mit exponentiellem Decay – EMA ist einfacher zu implementieren.