Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    SiLU / Swish

    Auch bekannt als:
    SiLU
    Swish
    Sigmoid Linear Unit
    Swish-Aktivierung
    Aktualisiert: 12.2.2026

    SiLU/Swish = x · σ(x) – eine glatte, selbst-gated Aktivierungsfunktion, die ReLU in vielen Benchmarks übertrifft und Grundlage von SwiGLU ist.

    Kurz erklärt

    SiLU/Swish = x · sigmoid(x) – glatter als ReLU, übertrifft es in vielen Benchmarks und ist die Basis von SwiGLU in modernen LLMs.

    Erklärung

    Swish wurde von Google Brain (2017) durch automatisierte Suche entdeckt: f(x) = x · sigmoid(βx), wobei β = 1 der Standard ist (= SiLU). Glatter als ReLU, nicht-monoton, unbegrenzt nach oben. SwiGLU (Shazeer, 2020) kombiniert Swish mit Gated Linear Units für noch bessere Ergebnisse in LLMs.

    Relevanz für Marketing

    SiLU/Swish ist die Brücke von ReLU zu SwiGLU – zentral für das Verständnis moderner LLM-Architekturen (LLaMA, PaLM).

    Häufige Fallstricke

    Teurer als ReLU. β als Hyperparameter selten getuned (β=1 fast immer optimal). In neuesten LLMs bereits durch SwiGLU abgelöst.

    Entstehung & Geschichte

    Ramachandran, Zoph & Le (Google Brain, 2017) fanden Swish durch automatisierte Suche über Aktivierungsfunktionen. SiLU (Elfwing et al., 2018) wurde unabhängig vorgeschlagen. PyTorch und JAX standardisierten auf SiLU. SwiGLU (Shazeer, 2020) wurde zur dominanten Variante in LLaMA und PaLM.

    Abgrenzung & Vergleiche

    SiLU / Swish vs. ReLU

    ReLU: stückweise linear, hartes 0-Thresholding; SiLU/Swish: glatt, nicht-monoton, selbst-gated – bessere Ergebnisse bei mehr Rechenkosten.

    SiLU / Swish vs. GELU

    GELU nutzt Normalverteilung zur Gewichtung; SiLU/Swish nutzt Sigmoid. Praktisch ähnliche Performance, SiLU etwas schneller.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!