Lookahead Optimizer
Meta-Optimizer, der zwei Gewichtssätze pflegt: "schnelle" Gewichte (normaler Optimizer) und "langsame" Gewichte, die periodisch in Richtung der schnellen interpoliert werden.
Lookahead pflegt schnelle und langsame Gewichte – stabilisiert Training durch periodische Interpolation, kann auf jeden Optimizer aufgesetzt werden.
Erklärung
Alle k Steps: slow_weights = slow_weights + α × (fast_weights − slow_weights). Die langsamen Gewichte wirken als stabilisierender Anker. Ranger = Lookahead + RAdam.
Relevanz für Marketing
Lookahead kann auf jeden Optimizer aufgesetzt werden und reduziert Varianz ohne zusätzliche Hyperparameter-Suche.
Häufige Fallstricke
Zusätzlicher Memory für langsame Gewichte. Synchronisationsintervall k muss gewählt werden. Nicht immer besser als gut getuntes AdamW.
Entstehung & Geschichte
Zhang et al. (2019, University of Toronto) schlugen Lookahead vor. Die Kombination "Ranger" (Lookahead + RAdam, Less Wright 2019) wurde in der Fast.ai-Community populär.
Abgrenzung & Vergleiche
Lookahead Optimizer vs. EMA
EMA mittelt Gewichte kontinuierlich für Inference; Lookahead interpoliert periodisch für Training-Stabilität – beide pflegen "geglättete" Gewichte.