RMSprop
Adaptiver Optimizer, der AdaGrads Problem löst, indem er einen exponentiell gewichteten Durchschnitt der quadrierten Gradienten nutzt statt deren Summe.
RMSprop fixte AdaGrads monoton fallende Lernrate durch exponentielles Vergessen alter Gradienten – Vorgänger von Adam und nie formal publiziert.
Erklärung
RMSprop "vergisst" alte Gradienten und fokussiert auf den aktuellen Zustand. Die Lernrate sinkt nicht monoton auf Null und bleibt trainierbar. Hinton stellte es in einer Coursera-Vorlesung vor – nie formal publiziert.
Relevanz für Marketing
RMSprop war vor Adam der beliebteste adaptive Optimizer. Heute noch als Baustein von Adam und für RL-Aufgaben relevant.
Häufige Fallstricke
Kein Momentum-Term (im Gegensatz zu Adam). Nie formal publiziert – nur in Vorlesungsfolien beschrieben. Für LLM-Training durch AdamW ersetzt.
Entstehung & Geschichte
Geoffrey Hinton stellte RMSprop 2012 in seinen Coursera Neural Network Lectures vor – ohne formale Publikation. Es wurde trotzdem zum Standard-Optimizer bis Adam (2014) beide Ideen (adaptive LR + Momentum) vereinte.
Abgrenzung & Vergleiche
RMSprop vs. AdaGrad
AdaGrad akkumuliert unbegrenzt (LR → 0); RMSprop nutzt exponentiellen Durchschnitt – behält eine nutzbare Lernrate bei.
RMSprop vs. Adam
RMSprop hat nur adaptive Lernraten (2. Moment); Adam fügt Momentum (1. Moment) hinzu. Adam ist ein "RMSprop + Momentum".