Cyclical Learning Rate (CLR)
Learning-Rate-Schedule, der die LR zyklisch zwischen einem Minimum und Maximum variiert – verhindert Stagnation und hilft, Sattelpunkte zu überwinden.
Cyclical Learning Rates variieren die LR periodisch zwischen Min und Max – verhindert Stagnation und war Vorgänger der One-Cycle Policy.
Erklärung
Die LR steigt und fällt in Dreiecks-, Trapez- oder Cosine-Zyklen. Das periodische Erhöhen der LR kann das Modell aus lokalen Minima "herausstoßen" und bessere Regionen finden.
Relevanz für Marketing
CLR war der Vorgänger der One-Cycle Policy. In Kombination mit dem LR Finder eine sehr effektive Tuning-Strategie.
Häufige Fallstricke
Zykluslänge und LR-Bereich müssen mit LR Finder bestimmt werden. Für LLM Pre-Training weniger verbreitet als Warmup+Cosine Decay.
Entstehung & Geschichte
Leslie Smith (2017) stellte CLR in "Cyclical Learning Rates for Training Neural Networks" vor. Die Methode zeigte, dass periodisches Erhöhen der LR hilft, bessere Lösungen zu finden. Smith entwickelte daraus die One-Cycle Policy und den LR Finder.
Abgrenzung & Vergleiche
Cyclical Learning Rate (CLR) vs. One-Cycle Policy
CLR hat mehrere Zyklen; One-Cycle nutzt genau einen Zyklus für das gesamte Training – aggressiver und oft effektiver.
Cyclical Learning Rate (CLR) vs. Cosine Annealing mit Warm Restarts
CLR nutzt lineare Dreiecks-Zyklen; SGDR nutzt Cosine-Zyklen mit optionalem Restart. Ähnliches Prinzip, andere Kurvenform.