Gradient Clipping
Gradient Clipping begrenzt die Norm oder den Wert von Gradienten während des Trainings, um Exploding Gradients zu verhindern.
Gradient Clipping begrenzt Gradienten-Normen und verhindert Exploding Gradients – Standard-Technik für stabiles LLM- und Transformer-Training.
Erklärung
Wenn die Gradient-Norm einen Schwellenwert überschreitet, werden alle Gradienten proportional skaliert. Standard bei LLM-Training (typisch: max_norm=1.0). Zwei Varianten: Clip by Value und Clip by Norm.
Relevanz für Marketing
Essentiell für stabiles Training von RNNs, Transformern und LLMs – ohne Gradient Clipping divergiert Training häufig.
Entstehung & Geschichte
Pascanu et al. (2013) formalisierten Gradient Clipping für RNNs. Mit dem Aufkommen von Transformern und LLMs wurde Gradient Clipping (max_norm=1.0) zum Standard in allen großen Training-Runs (GPT, LLaMA, etc.).
Abgrenzung & Vergleiche
Gradient Clipping vs. Vanishing Gradient
Gradient Clipping löst Exploding Gradients (zu groß); Vanishing Gradients (zu klein) brauchen andere Lösungen (Skip Connections, Normalisierung).