SiLU / Swish
SiLU/Swish = x · σ(x) – eine glatte, selbst-gated Aktivierungsfunktion, die ReLU in vielen Benchmarks übertrifft und Grundlage von SwiGLU ist.
SiLU/Swish = x · sigmoid(x) – glatter als ReLU, übertrifft es in vielen Benchmarks und ist die Basis von SwiGLU in modernen LLMs.
Erklärung
Swish wurde von Google Brain (2017) durch automatisierte Suche entdeckt: f(x) = x · sigmoid(βx), wobei β = 1 der Standard ist (= SiLU). Glatter als ReLU, nicht-monoton, unbegrenzt nach oben. SwiGLU (Shazeer, 2020) kombiniert Swish mit Gated Linear Units für noch bessere Ergebnisse in LLMs.
Relevanz für Marketing
SiLU/Swish ist die Brücke von ReLU zu SwiGLU – zentral für das Verständnis moderner LLM-Architekturen (LLaMA, PaLM).
Häufige Fallstricke
Teurer als ReLU. β als Hyperparameter selten getuned (β=1 fast immer optimal). In neuesten LLMs bereits durch SwiGLU abgelöst.
Entstehung & Geschichte
Ramachandran, Zoph & Le (Google Brain, 2017) fanden Swish durch automatisierte Suche über Aktivierungsfunktionen. SiLU (Elfwing et al., 2018) wurde unabhängig vorgeschlagen. PyTorch und JAX standardisierten auf SiLU. SwiGLU (Shazeer, 2020) wurde zur dominanten Variante in LLaMA und PaLM.
Abgrenzung & Vergleiche
SiLU / Swish vs. ReLU
ReLU: stückweise linear, hartes 0-Thresholding; SiLU/Swish: glatt, nicht-monoton, selbst-gated – bessere Ergebnisse bei mehr Rechenkosten.
SiLU / Swish vs. GELU
GELU nutzt Normalverteilung zur Gewichtung; SiLU/Swish nutzt Sigmoid. Praktisch ähnliche Performance, SiLU etwas schneller.