Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    SwiGLU

    Auch bekannt als:
    Swish-GLU
    Gated Linear Unit mit Swish
    Aktualisiert: 11.2.2026

    Eine Aktivierungsfunktion für Transformer-FFN-Blöcke, die Swish-Gating mit linearer Projektion kombiniert und in modernen LLMs wie LLaMA Standard ist.

    Kurz erklärt

    SwiGLU kombiniert Swish-Gating mit linearer Projektion – die Standard-Aktivierung in LLaMA, Mistral und modernen LLMs für bessere Qualität bei gleicher Größe.

    Erklärung

    SwiGLU(x) = Swish(xW₁) ⊙ (xW₂), wobei ⊙ elementweise Multiplikation ist. Kombiniert Gating (Swish) mit linearer Transformation. Braucht 3 Projektionsmatrizen statt 2 (bei GELU-FFN), aber bei gleicher Parameteranzahl bessere Qualität.

    Relevanz für Marketing

    SwiGLU ist die Standard-Aktivierungsfunktion in LLaMA, Mistral, Gemma und den meisten modernen Open-Source-LLMs.

    Häufige Fallstricke

    Höherer Speicherbedarf durch 3 statt 2 Projektionen. Inner Dimension typisch 2/3 von Standard-FFN um Parameter-Budget einzuhalten.

    Entstehung & Geschichte

    Shazeer (2020) verglich verschiedene GLU-Varianten für Transformer und fand SwiGLU als beste Option. PaLM (2022) und LLaMA (2023) übernahmen SwiGLU und machten es zum De-facto-Standard für Open-Source-LLMs.

    Abgrenzung & Vergleiche

    SwiGLU vs. GELU

    GELU ist ungegated (einfache Aktivierung); SwiGLU nutzt Gating für bessere Expressivität bei mehr Parametern.

    SwiGLU vs. ReLU

    ReLU ist die einfachste Aktivierung; SwiGLU ist deutlich komplexer mit Gating, aber signifikant bessere LLM-Qualität.

    Weiterführende Ressourcen

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!