LAMB
Optimizer für extrem große Batch Sizes (bis 64K+), der Lernraten pro Layer adaptiert und so stabiles Training bei massiver Parallelisierung ermöglicht.
LAMB adaptiert Lernraten pro Layer für extrem große Batches – ermöglichte BERT-Training in 76 Minuten statt 3 Tagen.
Erklärung
LAMB skaliert Updates pro Layer basierend auf dem Verhältnis von Gewichtsnorm zu Gradientennorm. Damit können Batch Sizes enorm erhöht werden, ohne die Trainingsqualität zu verlieren – ideal für schnelle Pre-Training-Runs.
Relevanz für Marketing
LAMB ermöglichte BERT-Training in 76 Minuten statt 3 Tagen. Essentiell für kosteneffizientes Training mit großen GPU-Clustern.
Häufige Fallstricke
Nur sinnvoll bei sehr großen Batch Sizes. Bei kleinen Batches kein Vorteil über AdamW. Hyperparameter-Tuning pro Layer kann komplex sein.
Entstehung & Geschichte
You et al. (2020) entwickelten LAMB bei Google, um BERT mit Batch Size 64K zu trainieren. Die Trainingszeit sank von 3 Tagen auf 76 Minuten. LAMB kombiniert Adam mit Layer-wise Trust Ratio (inspiriert von LARS).
Abgrenzung & Vergleiche
LAMB vs. AdamW
AdamW nutzt eine globale LR; LAMB skaliert zusätzlich pro Layer. LAMB lohnt sich nur bei Batch Sizes >8K.
LAMB vs. LARS
LARS basiert auf SGD + Layer-Skalierung; LAMB basiert auf Adam + Layer-Skalierung. LAMB funktioniert besser für NLP, LARS für Vision.