AdaGrad
Optimizer, der die Lernrate pro Parameter adaptiv anpasst – häufig aktualisierte Parameter erhalten kleinere Raten, seltene größere.
AdaGrad adaptiert Lernraten pro Parameter: seltene Features bekommen größere Updates. Erstes adaptives Verfahren, aber die monoton fallende LR macht es für tiefe Netze ungeeignet.
Erklärung
AdaGrad akkumuliert quadrierte Gradienten und skaliert die Lernrate invers. Gut für sparse Daten (NLP, Empfehlungssysteme), aber die LR sinkt monoton und kann zu früh auf Null fallen.
Relevanz für Marketing
AdaGrad war der erste adaptive Optimizer und inspirierte RMSprop und Adam. Heute noch relevant für sparse Features (Embeddings, Empfehlungssysteme).
Häufige Fallstricke
Learning Rate sinkt monoton auf Null – Training stoppt effektiv. Für tiefe Netze meist zu aggressiv. RMSprop/Adam bevorzugen.
Entstehung & Geschichte
Duchi, Hazan & Singer veröffentlichten AdaGrad 2011. Es war der Durchbruch für adaptive Lernraten, wurde aber schnell von RMSprop (Hinton, 2012) und Adam (2014) abgelöst, die das Problem der monoton fallenden LR lösen.
Abgrenzung & Vergleiche
AdaGrad vs. RMSprop
AdaGrad akkumuliert alle vergangenen Gradienten (LR → 0); RMSprop nutzt exponentiellen Durchschnitt und vergisst alte Gradienten – stabilere LR.
AdaGrad vs. Adam
Adam kombiniert RMSprop (adaptive LR) mit Momentum (Gradientenmittel). AdaGrad hat keinen Momentum und eine monoton fallende LR.