GELU (Gaussian Error Linear Unit)
Eine glatte Aktivierungsfunktion, die Inputs mit ihrer kumulativen Normalverteilungs-Wahrscheinlichkeit gewichtet – Standard in BERT, GPT-2 und vielen Transformern.
GELU gewichtet Inputs mit Normalverteilungs-Wahrscheinlichkeit – die Aktivierung hinter BERT und GPT, in neuesten LLMs von SwiGLU abgelöst.
Erklärung
GELU(x) ≈ x · Φ(x), wobei Φ die kumulative Normalverteilung ist. Anders als ReLU (hartes Thresholding) dämpft GELU Inputs sanft. Wird oft mit tanh-Approximation berechnet. In modernen LLMs von SwiGLU abgelöst.
Relevanz für Marketing
GELU war die erste Aktivierungsfunktion, die ReLU in Transformern ersetzte – in BERT, GPT-2/3 und vielen Vision Transformern.
Häufige Fallstricke
Rechenaufwändiger als ReLU. In neuesten LLMs von SwiGLU übertroffen. Verschiedene Approximationen (tanh vs. sigmoid) können Ergebnisse leicht verändern.
Entstehung & Geschichte
Hendrycks und Gimpel (2016) führten GELU ein. BERT (2018) und GPT-2 (2019) machten GELU zum Standard. GPT-3 und Vision Transformers übernahmen GELU ebenfalls. Ab 2022 wurde GELU zunehmend durch SwiGLU ersetzt.
Abgrenzung & Vergleiche
GELU (Gaussian Error Linear Unit) vs. ReLU
ReLU ist stückweise linear (0 für negative Werte); GELU ist glatt und dämpft negative Werte sanft statt sie abzuschneiden.
GELU (Gaussian Error Linear Unit) vs. SwiGLU
GELU ist eine einfache Aktivierung; SwiGLU kombiniert Gating mit Projektion und erreicht bessere LLM-Qualität.