Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Stochastic Weight Averaging (SWA)

    Auch bekannt als:
    SWA
    Gewichtsmittelung
    Stochastische Gewichtsmittelung
    Aktualisiert: 12.2.2026

    Trainingstechnik, die Modellgewichte über mehrere Checkpoints mittelt, um flachere Minima und bessere Generalisierung zu finden.

    Kurz erklärt

    SWA mittelt Gewichte über Trainings-Checkpoints – kostenlose Generalisierungsverbesserung ohne Inference-Overhead, findet flachere Minima.

    Erklärung

    Am Ende des normalen Trainings wird mit einer zyklischen oder konstanten LR weiter trainiert und die Gewichte werden gemittelt. Das Ensemble-Ergebnis liegt typisch in einer flacheren Region der Loss Landscape.

    Relevanz für Marketing

    SWA ist eine kostenlose Generalisierungsverbesserung – kein zusätzlicher Inference-Aufwand (ein Modell), nur etwas mehr Training.

    Häufige Fallstricke

    Batch Normalization muss nach dem Averaging neu berechnet werden. Nicht immer effektiv bei bereits optimal getuneten Modellen.

    Entstehung & Geschichte

    Izmailov et al. (2018) zeigten, dass einfache Gewichtsmittelung am Ende des Trainings konsistent bessere Generalisierung liefert. PyTorch integrierte SWA als offizielle Optimizer-Erweiterung.

    Abgrenzung & Vergleiche

    Stochastic Weight Averaging (SWA) vs. Model Ensemble

    Ensemble: mehrere Modelle bei Inference (N× Kosten). SWA: ein gemitteltes Modell bei Inference (1× Kosten, ähnlicher Effekt).

    Stochastic Weight Averaging (SWA) vs. EMA (Exponential Moving Average)

    SWA mittelt diskrete Checkpoints gleichgewichtet; EMA mittelt kontinuierlich mit exponentiellem Decay – EMA ist einfacher zu implementieren.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!