Question 1

Was ist SwiGLU?

Accepted Answer

Eine Aktivierungsfunktion für Transformer-FFN-Blöcke, die Swish-Gating mit linearer Projektion kombiniert und in modernen LLMs wie LLaMA Standard ist. SwiGLU(x) = Swish(xW₁) ⊙ (xW₂), wobei ⊙ elementweise Multiplikation ist. Kombiniert Gating (Swish) mit linearer Transformation. Braucht 3 Projektionsmatrizen statt 2 (bei GELU-FFN), aber bei gleicher Parameteranzahl bessere Qualität.

Question 2

Wie funktioniert SwiGLU?

Accepted Answer

SwiGLU(x) = Swish(xW₁) ⊙ (xW₂), wobei ⊙ elementweise Multiplikation ist. Kombiniert Gating (Swish) mit linearer Transformation. Braucht 3 Projektionsmatrizen statt 2 (bei GELU-FFN), aber bei gleicher Parameteranzahl bessere Qualität.

Question 3

Warum ist SwiGLU wichtig für Marketing?

Accepted Answer

SwiGLU ist die Standard-Aktivierungsfunktion in LLaMA, Mistral, Gemma und den meisten modernen Open-Source-LLMs.

Question 4

Was sind häufige Fehler bei SwiGLU?

Accepted Answer

Höherer Speicherbedarf durch 3 statt 2 Projektionen. Inner Dimension typisch 2/3 von Standard-FFN um Parameter-Budget einzuhalten.

Question 5

Woher kommt SwiGLU?

Accepted Answer

Shazeer (2020) verglich verschiedene GLU-Varianten für Transformer und fand SwiGLU als beste Option. PaLM (2022) und LLaMA (2023) übernahmen SwiGLU und machten es zum De-facto-Standard für Open-Source-LLMs.

Question 6

Was ist der Unterschied zwischen SwiGLU und GELU (Gaussian Error Linear Unit)?

Accepted Answer

SwiGLU und GELU (Gaussian Error Linear Unit) sind verwandte Konzepte im Bereich der KI und des Marketings. Eine Aktivierungsfunktion für Transformer-FFN-Blöcke, die Swish-Gating mit linearer Projektion kombi...

SwiGLU

Erklärung

Relevanz für Marketing

Häufige Fallstricke

Entstehung & Geschichte

Abgrenzung & Vergleiche

SwiGLU vs. GELU

SwiGLU vs. ReLU

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe