SwiGLU
Eine Aktivierungsfunktion für Transformer-FFN-Blöcke, die Swish-Gating mit linearer Projektion kombiniert und in modernen LLMs wie LLaMA Standard ist.
SwiGLU kombiniert Swish-Gating mit linearer Projektion – die Standard-Aktivierung in LLaMA, Mistral und modernen LLMs für bessere Qualität bei gleicher Größe.
Erklärung
SwiGLU(x) = Swish(xW₁) ⊙ (xW₂), wobei ⊙ elementweise Multiplikation ist. Kombiniert Gating (Swish) mit linearer Transformation. Braucht 3 Projektionsmatrizen statt 2 (bei GELU-FFN), aber bei gleicher Parameteranzahl bessere Qualität.
Relevanz für Marketing
SwiGLU ist die Standard-Aktivierungsfunktion in LLaMA, Mistral, Gemma und den meisten modernen Open-Source-LLMs.
Häufige Fallstricke
Höherer Speicherbedarf durch 3 statt 2 Projektionen. Inner Dimension typisch 2/3 von Standard-FFN um Parameter-Budget einzuhalten.
Entstehung & Geschichte
Shazeer (2020) verglich verschiedene GLU-Varianten für Transformer und fand SwiGLU als beste Option. PaLM (2022) und LLaMA (2023) übernahmen SwiGLU und machten es zum De-facto-Standard für Open-Source-LLMs.
Abgrenzung & Vergleiche
SwiGLU vs. GELU
GELU ist ungegated (einfache Aktivierung); SwiGLU nutzt Gating für bessere Expressivität bei mehr Parametern.
SwiGLU vs. ReLU
ReLU ist die einfachste Aktivierung; SwiGLU ist deutlich komplexer mit Gating, aber signifikant bessere LLM-Qualität.