Question 1

Was ist SiLU / Swish?

Accepted Answer

SiLU/Swish = x · σ(x) – eine glatte, selbst-gated Aktivierungsfunktion, die ReLU in vielen Benchmarks übertrifft und Grundlage von SwiGLU ist. Swish wurde von Google Brain (2017) durch automatisierte Suche entdeckt: f(x) = x · sigmoid(βx), wobei β = 1 der Standard ist (= SiLU). Glatter als ReLU, nicht-monoton, unbegrenzt nach oben. SwiGLU (Shazeer, 2020) kombiniert Swish mit Gated Linear Units für noch bessere Ergebnisse in LLMs.

Question 2

Wie funktioniert SiLU / Swish?

Accepted Answer

Swish wurde von Google Brain (2017) durch automatisierte Suche entdeckt: f(x) = x · sigmoid(βx), wobei β = 1 der Standard ist (= SiLU). Glatter als ReLU, nicht-monoton, unbegrenzt nach oben. SwiGLU (Shazeer, 2020) kombiniert Swish mit Gated Linear Units für noch bessere Ergebnisse in LLMs.

Question 3

Warum ist SiLU / Swish wichtig für Marketing?

Accepted Answer

SiLU/Swish ist die Brücke von ReLU zu SwiGLU – zentral für das Verständnis moderner LLM-Architekturen (LLaMA, PaLM).

Question 4

Was sind häufige Fehler bei SiLU / Swish?

Accepted Answer

Teurer als ReLU. β als Hyperparameter selten getuned (β=1 fast immer optimal). In neuesten LLMs bereits durch SwiGLU abgelöst.

Question 5

Woher kommt SiLU / Swish?

Accepted Answer

Ramachandran, Zoph & Le (Google Brain, 2017) fanden Swish durch automatisierte Suche über Aktivierungsfunktionen. SiLU (Elfwing et al., 2018) wurde unabhängig vorgeschlagen. PyTorch und JAX standardisierten auf SiLU. SwiGLU (Shazeer, 2020) wurde zur dominanten Variante in LLaMA und PaLM.

Question 6

Was ist der Unterschied zwischen SiLU / Swish und ReLU (Rectified Linear Unit)?

Accepted Answer

SiLU / Swish und ReLU (Rectified Linear Unit) sind verwandte Konzepte im Bereich der KI und des Marketings. SiLU/Swish = x · σ(x) – eine glatte, selbst-gated Aktivierungsfunktion, die ReLU in vielen Benchmark...

SiLU / Swish

Erklärung

Relevanz für Marketing

Häufige Fallstricke

Entstehung & Geschichte

Abgrenzung & Vergleiche

SiLU / Swish vs. ReLU

SiLU / Swish vs. GELU

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe