Cosine Annealing
Eine Learning-Rate-Schedule-Strategie, die die Lernrate gemäß einer Kosinuskurve von einem Maximalwert sanft auf nahe Null absenkt.
Cosine Annealing senkt die Learning Rate in einer Kosinuskurve – Standard-Schedule für LLM-Training und Vision-Modelle, sanfter als Step Decay.
Erklärung
Cosine Annealing reduziert die LR sanfter als Step Decay und ermöglicht spätes Fine-Tuning mit sehr kleinen Raten. Warm Restarts setzen die LR periodisch zurück.
Relevanz für Marketing
Cosine Annealing ist der De-facto-Standard für LLM Pre-Training und Vision-Modelle. Fast alle modernen Trainingsrezepte nutzen es.
Häufige Fallstricke
Gesamt-Steps müssen vorab bekannt sein. Warm Restarts erfordern Tuning der Zykluslänge. Nicht immer besser als Linear Decay.
Entstehung & Geschichte
Loshchilov & Hutter (2017) führten SGDR (SGD with Warm Restarts) ein, das Cosine Annealing mit periodischen Neustarts kombiniert. Das Chinchilla-Paper (2022) nutzte Cosine Decay für optimales LLM-Training. Seitdem Standard.
Abgrenzung & Vergleiche
Cosine Annealing vs. Step Decay
Step Decay reduziert die LR sprunghaft nach festen Intervallen; Cosine Annealing senkt sie glatt und kontinuierlich.
Cosine Annealing vs. Linear Decay
Linear Decay senkt die LR gleichmäßig; Cosine Annealing sinkt anfangs langsamer, dann schneller – behält länger eine höhere LR.