Tanh (Hyperbolischer Tangens)
Eine Aktivierungsfunktion, die Werte auf den Bereich [-1, 1] abbildet – zero-centered und glatter als Sigmoid.
Tanh bildet Werte auf [-1, 1] ab – zero-centered wie ReLU, aber glatter. Standard in LSTM/GRU-Gates, in Feed-Forward-Netzen durch ReLU ersetzt.
Erklärung
Tanh ist eine skalierte Sigmoid: tanh(x) = 2σ(2x) - 1. Die Zero-Centered-Eigenschaft verbessert die Gradientenflüsse im Vergleich zu Sigmoid.
Relevanz für Marketing
Tanh war lange Standard in RNNs und LSTMs. In modernen Architekturen durch ReLU/GELU ersetzt, aber in bestimmten Kontexten (z.B. Gate-Funktionen) weiterhin relevant.
Häufige Fallstricke
Vanishing Gradient Problem bei extremen Werten. Rechenintensiver als ReLU. Sättigung bei |x| > 3.
Entstehung & Geschichte
Tanh wurde als Verbesserung gegenüber Sigmoid in den 1990ern populär (LeCun, 1998). Die Zero-Centered-Eigenschaft verbesserte Konvergenz. Mit dem Aufkommen von ReLU (2010) sank die Bedeutung, aber Tanh bleibt in LSTM/GRU-Gates Standard.
Abgrenzung & Vergleiche
Tanh (Hyperbolischer Tangens) vs. Sigmoid
Sigmoid bildet auf [0, 1] ab (nicht zero-centered); Tanh auf [-1, 1] (zero-centered) – Tanh konvergiert oft schneller.
Tanh (Hyperbolischer Tangens) vs. ReLU
ReLU ist schneller berechenbar und vermeidet Vanishing Gradients für positive Werte. Tanh ist glatter aber sättigt bei extremen Inputs.