Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    AdaGrad

    Auch bekannt als:
    Adaptive Gradient
    AdaGrad Optimizer
    Aktualisiert: 10.2.2026

    Optimizer, der die Lernrate pro Parameter adaptiv anpasst – häufig aktualisierte Parameter erhalten kleinere Raten, seltene größere.

    Kurz erklärt

    AdaGrad adaptiert Lernraten pro Parameter: seltene Features bekommen größere Updates. Erstes adaptives Verfahren, aber die monoton fallende LR macht es für tiefe Netze ungeeignet.

    Erklärung

    AdaGrad akkumuliert quadrierte Gradienten und skaliert die Lernrate invers. Gut für sparse Daten (NLP, Empfehlungssysteme), aber die LR sinkt monoton und kann zu früh auf Null fallen.

    Relevanz für Marketing

    AdaGrad war der erste adaptive Optimizer und inspirierte RMSprop und Adam. Heute noch relevant für sparse Features (Embeddings, Empfehlungssysteme).

    Häufige Fallstricke

    Learning Rate sinkt monoton auf Null – Training stoppt effektiv. Für tiefe Netze meist zu aggressiv. RMSprop/Adam bevorzugen.

    Entstehung & Geschichte

    Duchi, Hazan & Singer veröffentlichten AdaGrad 2011. Es war der Durchbruch für adaptive Lernraten, wurde aber schnell von RMSprop (Hinton, 2012) und Adam (2014) abgelöst, die das Problem der monoton fallenden LR lösen.

    Abgrenzung & Vergleiche

    AdaGrad vs. RMSprop

    AdaGrad akkumuliert alle vergangenen Gradienten (LR → 0); RMSprop nutzt exponentiellen Durchschnitt und vergisst alte Gradienten – stabilere LR.

    AdaGrad vs. Adam

    Adam kombiniert RMSprop (adaptive LR) mit Momentum (Gradientenmittel). AdaGrad hat keinen Momentum und eine monoton fallende LR.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!