Adafactor
Memory-effizienter Optimizer, der Adams zweiten Moment durch eine faktorisierte Approximation ersetzt – spart bis zu 50% Optimizer-Memory.
Adafactor spart ~50% Optimizer-Memory durch faktorisierte Approximation des 2. Moments – Standard für T5 und PaLM, ideal bei begrenztem GPU-Speicher.
Erklärung
Adam speichert eine vollständige Matrix für den 2. Moment. Adafactor faktorisiert diese in Zeilen- und Spalten-Statistiken. Besonders wirksam bei großen Embedding-Tabellen.
Relevanz für Marketing
Adafactor ist der Standard-Optimizer für T5 und PaLM. Essentiell wenn GPU-Memory knapp ist – besonders bei >1B Parameter Modellen.
Häufige Fallstricke
Kann instabiler als Adam sein. Erfordert sorgfältiges Tuning. Nicht immer gleiche finale Qualität wie AdamW.
Entstehung & Geschichte
Shazeer & Stern (Google, 2018) entwickelten Adafactor für das Training von Transformer-Modellen mit begrenztem Memory. Es wurde Standard für T5 (2020) und PaLM (2022) bei Google.
Abgrenzung & Vergleiche
Adafactor vs. AdamW
AdamW speichert vollständige 1. und 2. Moment-Buffers; Adafactor faktorisiert den 2. Moment und spart ~50% Memory, kann aber instabiler sein.
Adafactor vs. Lion
Beide sparen Memory vs. Adam, aber auf unterschiedliche Weise: Adafactor faktorisiert, Lion nutzt nur Vorzeichen.