Gewichts-Initialisierung
Gewichts-Initialisierung bestimmt die Startwerte der Netzwerk-Parameter – kritisch für stabiles Training und schnelle Konvergenz.
Weight Initialization setzt die Startwerte neuronaler Netze – Xavier für Sigmoid/Tanh, He/Kaiming für ReLU, entscheidend für stabiles Training.
Erklärung
Xavier/Glorot Init (2010) für Sigmoid/Tanh, He/Kaiming Init (2015) für ReLU. Falsche Initialisierung führt zu Vanishing/Exploding Gradients von Beginn an. Moderne Frameworks wählen automatisch die richtige Methode.
Relevanz für Marketing
Korrekte Initialisierung ist Voraussetzung für Training – ein häufig unterschätzter Hyperparameter.
Entstehung & Geschichte
Xavier/Glorot Initialization (2010) löste Trainingsprobleme mit Sigmoid/Tanh. He/Kaiming Initialization (2015) wurde für ReLU-Netze entwickelt. Fixup Init (2019) ermöglichte Training ohne Normalisierung. Moderne Transformer nutzen spezielle Init-Strategien (μP, 2022).
Abgrenzung & Vergleiche
Gewichts-Initialisierung vs. Xavier vs He Init
Xavier für symmetrische Aktivierungen (Sigmoid/Tanh); He für ReLU (berücksichtigt, dass ReLU negative Hälfte abschneidet).