Was ist Cyclical Learning Rate (CLR)?

Learning-Rate-Schedule, der die LR zyklisch zwischen einem Minimum und Maximum variiert – verhindert Stagnation und hilft, Sattelpunkte zu überwinden. Die LR steigt und fällt in Dreiecks-, Trapez- oder Cosine-Zyklen. Das periodische Erhöhen der LR kann das Modell aus lokalen Minima "herausstoßen" und bessere Regionen finden.

Was ist der Unterschied zwischen Cyclical Learning Rate (CLR) und Learning Rate Schedule?

Cyclical Learning Rate (CLR) und Learning Rate Schedule sind verwandte Konzepte im Bereich der KI und des Marketings. Learning-Rate-Schedule, der die LR zyklisch zwischen einem Minimum und Maximum variiert – verhindert...

Künstliche Intelligenz

Cyclical Learning Rate (CLR)

Auch bekannt als:

CLR

Zyklische Lernrate

Triangular Schedule

Aktualisiert: 12.2.2026

Learning-Rate-Schedule, der die LR zyklisch zwischen einem Minimum und Maximum variiert – verhindert Stagnation und hilft, Sattelpunkte zu überwinden.

Kurz erklärt

Cyclical Learning Rates variieren die LR periodisch zwischen Min und Max – verhindert Stagnation und war Vorgänger der One-Cycle Policy.

Erklärung

Die LR steigt und fällt in Dreiecks-, Trapez- oder Cosine-Zyklen. Das periodische Erhöhen der LR kann das Modell aus lokalen Minima "herausstoßen" und bessere Regionen finden.

Relevanz für Marketing

CLR war der Vorgänger der One-Cycle Policy. In Kombination mit dem LR Finder eine sehr effektive Tuning-Strategie.

Häufige Fallstricke

Zykluslänge und LR-Bereich müssen mit LR Finder bestimmt werden. Für LLM Pre-Training weniger verbreitet als Warmup+Cosine Decay.

Entstehung & Geschichte

Leslie Smith (2017) stellte CLR in "Cyclical Learning Rates for Training Neural Networks" vor. Die Methode zeigte, dass periodisches Erhöhen der LR hilft, bessere Lösungen zu finden. Smith entwickelte daraus die One-Cycle Policy und den LR Finder.

Abgrenzung & Vergleiche

Cyclical Learning Rate (CLR) vs. One-Cycle Policy

CLR hat mehrere Zyklen; One-Cycle nutzt genau einen Zyklus für das gesamte Training – aggressiver und oft effektiver.

Cyclical Learning Rate (CLR) vs. Cosine Annealing mit Warm Restarts

CLR nutzt lineare Dreiecks-Zyklen; SGDR nutzt Cosine-Zyklen mit optionalem Restart. Ähnliches Prinzip, andere Kurvenform.