Sigmoid-Funktion
Die Sigmoid-Funktion σ(x) = 1/(1+e^(-x)) mappt beliebige Werte auf den Bereich (0, 1) – historisch wichtig als Aktivierungsfunktion, heute primär für binäre Klassifikation.
Sigmoid mappt Werte auf 0-1 – die klassische Aktivierungsfunktion für binäre Klassifikation, in Hidden Layers durch ReLU ersetzt wegen Vanishing Gradients.
Erklärung
Sigmoid war die erste populäre Aktivierungsfunktion in neuronalen Netzen. Heute wird sie hauptsächlich als Output-Aktivierung für binäre Klassifikation verwendet (Wahrscheinlichkeit 0-1). In versteckten Schichten wurde sie durch ReLU abgelöst.
Relevanz für Marketing
Fundamental für das Verständnis neuronaler Netze und logistischer Regression.
Entstehung & Geschichte
Die logistische Funktion wurde 1838 von Pierre François Verhulst beschrieben. In neuronalen Netzen dominierte Sigmoid bis ca. 2010. Mit ReLU (2010+) wurde klar, dass Sigmoid in tiefen Netzen zu Vanishing Gradients führt. Heute nur noch als Output-Layer für binäre Entscheidungen genutzt.
Abgrenzung & Vergleiche
Sigmoid-Funktion vs. ReLU
Sigmoid sättigt bei extremen Werten (Vanishing Gradient); ReLU hat keinen oberen Sättigungspunkt und trainiert schneller.
Sigmoid-Funktion vs. Tanh
Sigmoid: Output 0-1; Tanh: Output -1 bis +1 (zero-centered, oft besser in Hidden Layers). Beide leiden unter Vanishing Gradients.