Nesterov Momentum
Verbesserte Momentum-Variante, die den Gradienten am "vorausgeblickten" Punkt berechnet statt am aktuellen – schnellere und stabilere Konvergenz.
Nesterov Momentum blickt voraus und korrigiert die Richtung bevor sie falsch wird – theoretisch schnellere Konvergenz als Standard-Momentum.
Erklärung
Standard-Momentum: erst Gradient, dann Schritt. Nesterov: erst Schritt (basierend auf Momentum), dann Gradient am neuen Punkt. Dieser "Look-Ahead" korrigiert die Richtung bevor sie falsch wird.
Relevanz für Marketing
Nesterov Momentum ist Standard in SGD für Computer Vision und bietet bessere Konvergenzgarantien als klassisches Momentum.
Häufige Fallstricke
Nur marginal besser als klassisches Momentum in der Praxis. In Adam weniger relevant, da Adam eigene adaptive Mechanismen hat.
Entstehung & Geschichte
Yurii Nesterov veröffentlichte die Methode 1983 als "Accelerated Gradient Method" mit beweisbar besserer Konvergenzrate. Sutskever et al. (2013) adaptierten sie für Deep Learning. PyTorch implementiert Nesterov als Flag in SGD.
Abgrenzung & Vergleiche
Nesterov Momentum vs. Klassisches Momentum
Klassisches Momentum berechnet den Gradienten am aktuellen Punkt; Nesterov am vorausgeblickten Punkt – bessere Korrektur bei Richtungswechseln.
Nesterov Momentum vs. Adam
Adam hat eingebautes Momentum (1. Moment) plus adaptive Lernraten. Nesterov-Varianten von Adam (NAdam) existieren, sind aber selten nötig.