Sharpness-Aware Minimization (SAM)
Optimierungsmethode, die nicht nur den Loss minimiert, sondern auch die "Schärfe" der Loss-Landscape – findet flachere Minima für bessere Generalisierung.
SAM sucht gezielt flache Minima durch adversariale Perturbation – bessere Generalisierung auf Kosten von 2x Compute pro Schritt.
Erklärung
SAM macht pro Schritt zwei Forward-Passes: erst ein Adversarial-Schritt in die Richtung maximalen Loss-Anstiegs, dann Optimierung an diesem Punkt. Das Ergebnis: Parameter landen in flachen, robusten Regionen.
Relevanz für Marketing
SAM verbessert Generalisierung bei Vision-Modellen signifikant. Google nutzt SAM für ViT-Training. Besonders effektiv mit wenig Daten.
Häufige Fallstricke
2x Compute-Kosten durch doppelten Forward-Pass. ASAM (Adaptive SAM) reduziert Overhead. Nicht immer lohnend für LLM-Training.
Entstehung & Geschichte
Foret et al. (Google, 2021) veröffentlichten SAM und zeigten konsistente Verbesserungen über diverse Benchmarks. ASAM (Kwon et al., 2021) machte SAM adaptiv. SAM wurde Standard bei Googles ViT-Trainings.
Abgrenzung & Vergleiche
Sharpness-Aware Minimization (SAM) vs. AdamW
AdamW minimiert nur den Loss; SAM minimiert Loss UND Schärfe der Landscape. SAM kann auf AdamW aufgesetzt werden (SAM + AdamW).
Sharpness-Aware Minimization (SAM) vs. Stochastic Weight Averaging (SWA)
SWA mittelt Checkpoints für flachere Lösungen post-hoc; SAM sucht aktiv flache Minima während des Trainings.