Momentum
Beschleunigungstechnik für Gradient Descent, die vergangene Gradientenrichtungen akkumuliert, um schneller zu konvergieren und über lokale Minima hinwegzukommen.
Momentum beschleunigt SGD durch Akkumulation vergangener Gradienten – wie eine Kugel, die bergab rollt und kleine Hügel (lokale Minima) überwindet. Standard-Wert: 0.9.
Erklärung
Momentum addiert einen gewichteten Anteil des vorherigen Updates zum aktuellen. Wie eine rollende Kugel: sie beschleunigt in konsistenter Richtung und überwindet kleine Hügel.
Relevanz für Marketing
Momentum ist Standardbestandteil aller modernen Optimizer (SGD+Momentum, Adam). Typischer Wert: 0.9.
Häufige Fallstricke
Zu hoher Momentum-Wert kann über das Minimum hinausschießen. Interaktion mit Learning Rate beachten.
Entstehung & Geschichte
Boris Polyak führte die Heavy-Ball-Methode 1964 ein. Nesterov Momentum (1983) blickt voraus und verbessert die Konvergenz. Momentum wurde in Adam (2015) als erster Moment integriert.
Abgrenzung & Vergleiche
Momentum vs. Nesterov Momentum
Standard-Momentum berechnet Gradient am aktuellen Punkt; Nesterov berechnet am "vorausgeblickten" Punkt – bessere Konvergenz.
Momentum vs. Adam (Adaptive Moment)
Momentum nutzt nur den ersten Moment (Mittelwert der Gradienten); Adam nutzt zusätzlich den zweiten Moment (Varianz) für adaptive Lernraten.