Warmup
Trainingstechnik, die die Learning Rate in den ersten Steps/Epochen langsam von nahe Null auf den Zielwert hochfährt.
Warmup startet mit winziger Learning Rate und erhöht sie graduell – verhindert Training-Explosionen bei zufällig initialisierten Gewichten. Standard bei LLM-Training.
Erklärung
Warmup verhindert instabiles Training am Anfang, wenn Gewichte noch zufällig initialisiert sind und große Gradienten produzieren.
Relevanz für Marketing
Warmup ist essentiell für LLM-Training, Fine-Tuning und Training mit großen Batch Sizes. Typisch: 1-5% der Total Steps.
Häufige Fallstricke
Zu lange Warmup-Phase verschwendet Training-Budget. Zu kurz kann zu Instabilität führen. Warmup-Dauer skaliert mit Batch Size.
Entstehung & Geschichte
Goyal et al. (2017, Facebook) zeigten, dass Warmup essentiell für Training mit großen Batch Sizes ist ("Accurate, Large Minibatch SGD"). Seitdem Standardbestandteil jedes LLM-Trainingsrezepts.
Abgrenzung & Vergleiche
Warmup vs. Cosine Annealing
Warmup erhöht die LR am Anfang; Cosine Annealing senkt sie danach. Zusammen bilden sie den Standard-Schedule: Warmup → Cosine Decay.
Warmup vs. Constant Learning Rate
Ohne Warmup kann das Training bei hoher LR sofort divergieren. Warmup gibt dem Optimizer Zeit, sich an die Loss Landscape anzupassen.