ReLU (Rectified Linear Unit)
ReLU ist die meistgenutzte Aktivierungsfunktion im Deep Learning: f(x) = max(0, x) – einfach, schnell und effektiv gegen Vanishing Gradients.
ReLU = max(0, x) – die einfachste und meistgenutzte Aktivierungsfunktion, die Deep Learning durch Vermeidung von Vanishing Gradients erst möglich machte.
Erklärung
ReLU gibt positive Werte unverändert weiter und setzt negative auf 0. Dies vermeidet Vanishing Gradients (im Gegensatz zu Sigmoid/Tanh) und beschleunigt Training. Varianten: Leaky ReLU, PReLU, GELU, SiLU/Swish.
Relevanz für Marketing
ReLU war der Schlüssel zum Erfolg des Deep Learning – ohne ReLU wären tiefe Netze nicht trainierbar gewesen.
Entstehung & Geschichte
ReLU wurde bereits in den 1960ern beschrieben, aber erst Nair & Hinton (2010) zeigten ihre Überlegenheit für tiefe Netze. AlexNet (2012) nutzte ReLU für den ImageNet-Durchbruch. GELU (Hendrycks, 2016) und SiLU/Swish (2017) sind glattere Varianten, die in Transformern (GPT, BERT) zum Standard wurden.
Abgrenzung & Vergleiche
ReLU (Rectified Linear Unit) vs. Sigmoid
ReLU: kein Vanishing Gradient, schnell, aber "Dead Neurons" möglich. Sigmoid: smooth 0-1 Output, aber sättigt in tiefen Netzen.
ReLU (Rectified Linear Unit) vs. GELU
ReLU hat harten Knick bei 0; GELU ist glatt und probabilistisch – Standard in Transformern (GPT, BERT).