Question 1

Was ist Feed-Forward Network (FFN)?

Accepted Answer

Im Transformer-Kontext: ein zweischichtiges MLP, das nach der Attention-Schicht auf jede Position unabhängig angewandt wird. FFN(x) = GELU(xW₁ + b₁)W₂ + b₂. Innere Dimension ist typisch 4x die Modell-Dimension (z.B. d_model=4096 → d_ff=16384). Hier wird "Wissen gespeichert" – Attention findet relevante Info, FFN verarbeitet sie. SwiGLU in modernen LLMs (LLaMA) ersetzt GELU.

Question 2

Wie funktioniert Feed-Forward Network (FFN)?

Accepted Answer

FFN(x) = GELU(xW₁ + b₁)W₂ + b₂. Innere Dimension ist typisch 4x die Modell-Dimension (z.B. d_model=4096 → d_ff=16384). Hier wird "Wissen gespeichert" – Attention findet relevante Info, FFN verarbeitet sie. SwiGLU in modernen LLMs (LLaMA) ersetzt GELU.

Question 3

Warum ist Feed-Forward Network (FFN) wichtig für Marketing?

Accepted Answer

FFN-Parameter machen ~2/3 der Transformer-Parameter aus – hier wird der Großteil des "Wissens" gespeichert.

Question 4

Was sind häufige Fehler bei Feed-Forward Network (FFN)?

Accepted Answer

FFN-Expansion-Ratio (4x) verbraucht Großteil der Parameter. SwiGLU braucht 8/3x statt 4x. MoE optimiert FFN durch Sparse Routing.

Question 5

Woher kommt Feed-Forward Network (FFN)?

Accepted Answer

Position-Wise FFN war Teil des Original-Transformers (2017). GPT und BERT nutzten GELU statt ReLU. LLaMA (2023) führte SwiGLU-Aktivierung ein, die zur Norm in modernen LLMs wurde. MoE-Modelle (Mixtral, GPT-4) machen FFN sparse.

Question 6

Was ist der Unterschied zwischen Feed-Forward Network (FFN) und Transformer?

Accepted Answer

Feed-Forward Network (FFN) und Transformer sind verwandte Konzepte im Bereich der KI und des Marketings. Im Transformer-Kontext: ein zweischichtiges MLP, das nach der Attention-Schicht auf jede Position un...

Feed-Forward Network (FFN)

Erklärung

Relevanz für Marketing

Häufige Fallstricke

Entstehung & Geschichte

Abgrenzung & Vergleiche

Feed-Forward Network (FFN) vs. Mixture of Experts (MoE)

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe