SELU (Scaled Exponential Linear Unit)
Eine selbst-normalisierende Aktivierungsfunktion, die Outputs automatisch auf Mittelwert 0 und Varianz 1 zentriert – braucht keine Batch/Layer Norm.
SELU normalisiert sich selbst durch spezielle Skalierung – keine Batch/Layer Norm nötig, aber strenge Architektur-Anforderungen.
Erklärung
SELU = λ · ELU(x, α) mit mathematisch abgeleiteten Konstanten (λ ≈ 1.0507, α ≈ 1.6733). Benötigt LeCun-Initialisierung und Dropout-Variante (Alpha Dropout). Theoretisch elegant, aber in der Praxis oft schwer auf alle Architekturen anwendbar.
Relevanz für Marketing
Zeigte, dass Normalisierung in die Aktivierungsfunktion eingebaut werden kann – inspirierte Forschung zu normfreien Architekturen.
Entstehung & Geschichte
Klambauer et al. (2017) bewiesen mathematisch, dass SELU-Netzwerke selbst-normalisierend sind. Das Paper gewann Aufmerksamkeit, aber praktische Einschränkungen (keine Convolutions, spezielle Initialisierung) begrenzten die Adoption.
Abgrenzung & Vergleiche
SELU (Scaled Exponential Linear Unit) vs. ELU
ELU allein normalisiert nicht; SELU skaliert ELU so, dass Outputs automatisch normalized bleiben.