Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Exponential Moving Average (EMA)

    Auch bekannt als:
    EMA
    Exponentieller Gleitender Durchschnitt
    Polyak Averaging
    Model EMA
    Aktualisiert: 12.2.2026

    Technik, die einen exponentiell gewichteten Durchschnitt der Modellgewichte über den Trainingsverlauf pflegt – das EMA-Modell generalisiert oft besser als das finale Modell.

    Kurz erklärt

    EMA pflegt einen gleitenden Durchschnitt der Modellgewichte – Standard für Diffusionsmodelle und Self-Supervised Learning, liefert robustere Inference-Gewichte.

    Erklärung

    EMA-Gewichte: θ_ema = α × θ_ema + (1-α) × θ_aktuell. Typisch α=0.999 oder 0.9999. Das EMA-Modell wird nur für Evaluation/Inference genutzt, nicht fürs Training selbst.

    Relevanz für Marketing

    EMA ist Standard bei Diffusionsmodellen (Stable Diffusion), ViTs und zunehmend bei LLMs. DINO und BYOL nutzen EMA als "Teacher" in Self-Supervised Learning.

    Häufige Fallstricke

    Zusätzlicher Speicher für EMA-Gewichte (2× Parameter). Decay Rate muss getuned werden. BN-Stats müssen separat berechnet werden.

    Entstehung & Geschichte

    Polyak & Juditsky (1992) schlugen Gewichtsmittelung für schnellere Konvergenz vor. EMA wurde essentiell für Self-Supervised Learning (BYOL 2020, DINO 2021) und Diffusionsmodelle. Heute Standard in nahezu allen generativen Modellen.

    Abgrenzung & Vergleiche

    Exponential Moving Average (EMA) vs. SWA (Stochastic Weight Averaging)

    EMA mittelt kontinuierlich mit exponentiellem Decay; SWA mittelt diskrete Checkpoints. EMA ist einfacher, SWA hat theoretisch breitere Mittelung.

    Exponential Moving Average (EMA) vs. Checkpoint Ensemble

    Ensemble nutzt mehrere Checkpoints bei Inference (teuer); EMA produziert ein einzelnes Modell mit ähnlicher Glättung (billig).

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!