Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Feed-Forward Network (FFN)

    Auch bekannt als:
    Vorwärtsnetzwerk
    Position-Wise FFN
    MLP-Block
    Transformer-FFN
    Aktualisiert: 10.2.2026

    Im Transformer-Kontext: ein zweischichtiges MLP, das nach der Attention-Schicht auf jede Position unabhängig angewandt wird.

    Kurz erklärt

    Das FFN im Transformer speichert Wissen in zwei linearen Schichten mit Aktivierung – es macht 2/3 aller Parameter aus und verarbeitet was Attention gefunden hat.

    Erklärung

    FFN(x) = GELU(xW₁ + b₁)W₂ + b₂. Innere Dimension ist typisch 4x die Modell-Dimension (z.B. d_model=4096 → d_ff=16384). Hier wird "Wissen gespeichert" – Attention findet relevante Info, FFN verarbeitet sie. SwiGLU in modernen LLMs (LLaMA) ersetzt GELU.

    Relevanz für Marketing

    FFN-Parameter machen ~2/3 der Transformer-Parameter aus – hier wird der Großteil des "Wissens" gespeichert.

    Häufige Fallstricke

    FFN-Expansion-Ratio (4x) verbraucht Großteil der Parameter. SwiGLU braucht 8/3x statt 4x. MoE optimiert FFN durch Sparse Routing.

    Entstehung & Geschichte

    Position-Wise FFN war Teil des Original-Transformers (2017). GPT und BERT nutzten GELU statt ReLU. LLaMA (2023) führte SwiGLU-Aktivierung ein, die zur Norm in modernen LLMs wurde. MoE-Modelle (Mixtral, GPT-4) machen FFN sparse.

    Abgrenzung & Vergleiche

    Feed-Forward Network (FFN) vs. Mixture of Experts (MoE)

    Standard-FFN: Jedes Token durchläuft alle Parameter. MoE: Router wählt 2 von 8+ Experten-FFNs – mehr Kapazität bei gleichem Compute.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!