Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Adafactor

    Auch bekannt als:
    Adafactor Optimizer
    Memory-effizienter Adam
    Aktualisiert: 10.2.2026

    Memory-effizienter Optimizer, der Adams zweiten Moment durch eine faktorisierte Approximation ersetzt – spart bis zu 50% Optimizer-Memory.

    Kurz erklärt

    Adafactor spart ~50% Optimizer-Memory durch faktorisierte Approximation des 2. Moments – Standard für T5 und PaLM, ideal bei begrenztem GPU-Speicher.

    Erklärung

    Adam speichert eine vollständige Matrix für den 2. Moment. Adafactor faktorisiert diese in Zeilen- und Spalten-Statistiken. Besonders wirksam bei großen Embedding-Tabellen.

    Relevanz für Marketing

    Adafactor ist der Standard-Optimizer für T5 und PaLM. Essentiell wenn GPU-Memory knapp ist – besonders bei >1B Parameter Modellen.

    Häufige Fallstricke

    Kann instabiler als Adam sein. Erfordert sorgfältiges Tuning. Nicht immer gleiche finale Qualität wie AdamW.

    Entstehung & Geschichte

    Shazeer & Stern (Google, 2018) entwickelten Adafactor für das Training von Transformer-Modellen mit begrenztem Memory. Es wurde Standard für T5 (2020) und PaLM (2022) bei Google.

    Abgrenzung & Vergleiche

    Adafactor vs. AdamW

    AdamW speichert vollständige 1. und 2. Moment-Buffers; Adafactor faktorisiert den 2. Moment und spart ~50% Memory, kann aber instabiler sein.

    Adafactor vs. Lion

    Beide sparen Memory vs. Adam, aber auf unterschiedliche Weise: Adafactor faktorisiert, Lion nutzt nur Vorzeichen.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!