NAdam
Optimizer, der Nesterov Momentum in Adam integriert – kombiniert die Look-Ahead-Korrektur von NAG mit Adams adaptiven Lernraten.
NAdam integriert Nesterov Look-Ahead in Adam – theoretisch schnellere Konvergenz, aber in der Praxis nur marginal besser als AdamW.
Erklärung
NAdam modifiziert Adams Momentum-Term so, dass der Gradient am "vorausgeblickten" Punkt statt am aktuellen berechnet wird. Dies kann schnellere Konvergenz und bessere Generalisierung bringen.
Relevanz für Marketing
NAdam ist eine theoretisch fundierte Verbesserung von Adam, wird aber in der Praxis seltener genutzt als AdamW. Relevant für Forscher und Benchmarks.
Häufige Fallstricke
Marginal besser als Adam in der Praxis. AdamW bleibt Standard. Hyperparameter von Adam sind nicht direkt übertragbar.
Entstehung & Geschichte
Dozat (2016) schlug NAdam als elegante Integration von Nesterov Momentum in Adam vor. Obwohl theoretisch überlegen, konnte NAdam sich nicht gegen AdamW als Standard durchsetzen.
Abgrenzung & Vergleiche
NAdam vs. Adam
Adam nutzt klassisches Momentum (1. Moment); NAdam nutzt Nesterov-Momentum mit Look-Ahead-Korrektur.
NAdam vs. AdamW
AdamW fixte Weight Decay; NAdam fixte Momentum-Berechnung. Beide lösen verschiedene Adam-Schwächen.