Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    GELU (Gaussian Error Linear Unit)

    Auch bekannt als:
    Gaussian Error Linear Unit
    GELU-Aktivierung
    Aktualisiert: 11.2.2026

    Eine glatte Aktivierungsfunktion, die Inputs mit ihrer kumulativen Normalverteilungs-Wahrscheinlichkeit gewichtet – Standard in BERT, GPT-2 und vielen Transformern.

    Kurz erklärt

    GELU gewichtet Inputs mit Normalverteilungs-Wahrscheinlichkeit – die Aktivierung hinter BERT und GPT, in neuesten LLMs von SwiGLU abgelöst.

    Erklärung

    GELU(x) ≈ x · Φ(x), wobei Φ die kumulative Normalverteilung ist. Anders als ReLU (hartes Thresholding) dämpft GELU Inputs sanft. Wird oft mit tanh-Approximation berechnet. In modernen LLMs von SwiGLU abgelöst.

    Relevanz für Marketing

    GELU war die erste Aktivierungsfunktion, die ReLU in Transformern ersetzte – in BERT, GPT-2/3 und vielen Vision Transformern.

    Häufige Fallstricke

    Rechenaufwändiger als ReLU. In neuesten LLMs von SwiGLU übertroffen. Verschiedene Approximationen (tanh vs. sigmoid) können Ergebnisse leicht verändern.

    Entstehung & Geschichte

    Hendrycks und Gimpel (2016) führten GELU ein. BERT (2018) und GPT-2 (2019) machten GELU zum Standard. GPT-3 und Vision Transformers übernahmen GELU ebenfalls. Ab 2022 wurde GELU zunehmend durch SwiGLU ersetzt.

    Abgrenzung & Vergleiche

    GELU (Gaussian Error Linear Unit) vs. ReLU

    ReLU ist stückweise linear (0 für negative Werte); GELU ist glatt und dämpft negative Werte sanft statt sie abzuschneiden.

    GELU (Gaussian Error Linear Unit) vs. SwiGLU

    GELU ist eine einfache Aktivierung; SwiGLU kombiniert Gating mit Projektion und erreicht bessere LLM-Qualität.

    Weiterführende Ressourcen

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!