Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (LARS (Layer-wise Adaptive Rate Scaling))

    LARS

    Auch bekannt als:
    LARS Optimizer
    Layer-wise Adaptive Rate Scaling
    Aktualisiert: 12.2.2026

    Optimizer, der SGD mit Layer-weiser Lernratenanpassung kombiniert – ermöglicht stabiles Training mit großen Batch Sizes für Computer Vision.

    Kurz erklärt

    LARS skaliert SGD-Updates pro Layer basierend auf Gewichts-/Gradienten-Norm – Standard für Large-Batch Vision-Training (ResNet mit Batch 32K).

    Erklärung

    LARS berechnet ein Trust Ratio pro Layer: Gewichtsnorm / Gradientennorm. Große Schichten mit kleinen Gradienten bekommen größere Schritte und umgekehrt.

    Relevanz für Marketing

    LARS ermöglicht Vision-Training (ResNet) mit Batch Size 32K ohne Qualitätsverlust. Vorgänger von LAMB.

    Häufige Fallstricke

    Basiert auf SGD (kein Momentum 2. Ordnung). Für NLP/Transformer weniger geeignet als LAMB. Trust Ratio kann bei kleinen Layern instabil werden.

    Entstehung & Geschichte

    You, Gitman & Ginsburg (2017) entwickelten LARS für großes Batch-Training bei NVIDIA. Es zeigte, dass Layer-weise Skalierung den "Large Batch Problem" löst. LARS inspirierte LAMB für Adam-basierte Optimizer.

    Abgrenzung & Vergleiche

    LARS vs. SGD mit Momentum

    SGD nutzt eine globale LR; LARS skaliert pro Layer – ermöglicht 10-100x größere Batches ohne Divergenz.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!