Exponential Moving Average (EMA)
Technik, die einen exponentiell gewichteten Durchschnitt der Modellgewichte über den Trainingsverlauf pflegt – das EMA-Modell generalisiert oft besser als das finale Modell.
EMA pflegt einen gleitenden Durchschnitt der Modellgewichte – Standard für Diffusionsmodelle und Self-Supervised Learning, liefert robustere Inference-Gewichte.
Erklärung
EMA-Gewichte: θ_ema = α × θ_ema + (1-α) × θ_aktuell. Typisch α=0.999 oder 0.9999. Das EMA-Modell wird nur für Evaluation/Inference genutzt, nicht fürs Training selbst.
Relevanz für Marketing
EMA ist Standard bei Diffusionsmodellen (Stable Diffusion), ViTs und zunehmend bei LLMs. DINO und BYOL nutzen EMA als "Teacher" in Self-Supervised Learning.
Häufige Fallstricke
Zusätzlicher Speicher für EMA-Gewichte (2× Parameter). Decay Rate muss getuned werden. BN-Stats müssen separat berechnet werden.
Entstehung & Geschichte
Polyak & Juditsky (1992) schlugen Gewichtsmittelung für schnellere Konvergenz vor. EMA wurde essentiell für Self-Supervised Learning (BYOL 2020, DINO 2021) und Diffusionsmodelle. Heute Standard in nahezu allen generativen Modellen.
Abgrenzung & Vergleiche
Exponential Moving Average (EMA) vs. SWA (Stochastic Weight Averaging)
EMA mittelt kontinuierlich mit exponentiellem Decay; SWA mittelt diskrete Checkpoints. EMA ist einfacher, SWA hat theoretisch breitere Mittelung.
Exponential Moving Average (EMA) vs. Checkpoint Ensemble
Ensemble nutzt mehrere Checkpoints bei Inference (teuer); EMA produziert ein einzelnes Modell mit ähnlicher Glättung (billig).