LARS
Optimizer, der SGD mit Layer-weiser Lernratenanpassung kombiniert – ermöglicht stabiles Training mit großen Batch Sizes für Computer Vision.
LARS skaliert SGD-Updates pro Layer basierend auf Gewichts-/Gradienten-Norm – Standard für Large-Batch Vision-Training (ResNet mit Batch 32K).
Erklärung
LARS berechnet ein Trust Ratio pro Layer: Gewichtsnorm / Gradientennorm. Große Schichten mit kleinen Gradienten bekommen größere Schritte und umgekehrt.
Relevanz für Marketing
LARS ermöglicht Vision-Training (ResNet) mit Batch Size 32K ohne Qualitätsverlust. Vorgänger von LAMB.
Häufige Fallstricke
Basiert auf SGD (kein Momentum 2. Ordnung). Für NLP/Transformer weniger geeignet als LAMB. Trust Ratio kann bei kleinen Layern instabil werden.
Entstehung & Geschichte
You, Gitman & Ginsburg (2017) entwickelten LARS für großes Batch-Training bei NVIDIA. Es zeigte, dass Layer-weise Skalierung den "Large Batch Problem" löst. LARS inspirierte LAMB für Adam-basierte Optimizer.
Abgrenzung & Vergleiche
LARS vs. SGD mit Momentum
SGD nutzt eine globale LR; LARS skaliert pro Layer – ermöglicht 10-100x größere Batches ohne Divergenz.