Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (LAMB (Layer-wise Adaptive Moments for Batch Training))

    LAMB

    Auch bekannt als:
    LAMB Optimizer
    Layer-wise Adaptive Moments
    Aktualisiert: 12.2.2026

    Optimizer für extrem große Batch Sizes (bis 64K+), der Lernraten pro Layer adaptiert und so stabiles Training bei massiver Parallelisierung ermöglicht.

    Kurz erklärt

    LAMB adaptiert Lernraten pro Layer für extrem große Batches – ermöglichte BERT-Training in 76 Minuten statt 3 Tagen.

    Erklärung

    LAMB skaliert Updates pro Layer basierend auf dem Verhältnis von Gewichtsnorm zu Gradientennorm. Damit können Batch Sizes enorm erhöht werden, ohne die Trainingsqualität zu verlieren – ideal für schnelle Pre-Training-Runs.

    Relevanz für Marketing

    LAMB ermöglichte BERT-Training in 76 Minuten statt 3 Tagen. Essentiell für kosteneffizientes Training mit großen GPU-Clustern.

    Häufige Fallstricke

    Nur sinnvoll bei sehr großen Batch Sizes. Bei kleinen Batches kein Vorteil über AdamW. Hyperparameter-Tuning pro Layer kann komplex sein.

    Entstehung & Geschichte

    You et al. (2020) entwickelten LAMB bei Google, um BERT mit Batch Size 64K zu trainieren. Die Trainingszeit sank von 3 Tagen auf 76 Minuten. LAMB kombiniert Adam mit Layer-wise Trust Ratio (inspiriert von LARS).

    Abgrenzung & Vergleiche

    LAMB vs. AdamW

    AdamW nutzt eine globale LR; LAMB skaliert zusätzlich pro Layer. LAMB lohnt sich nur bei Batch Sizes >8K.

    LAMB vs. LARS

    LARS basiert auf SGD + Layer-Skalierung; LAMB basiert auf Adam + Layer-Skalierung. LAMB funktioniert besser für NLP, LARS für Vision.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!