Gradient Centralization
Einfache Technik, die den Mittelwert der Gradienten subtrahiert, bevor sie auf die Gewichte angewendet werden – verbessert Generalisierung ohne Kosten.
Gradient Centralization subtrahiert den Mittelwert der Gradienten – kostenlose Regularisierung mit einer Zeile Code, verbessert Generalisierung konsistent.
Erklärung
GC zentriert Gradienten um Null: g = g − mean(g). Dies reguliert implizit die Gewichtsnormen und hat einen ähnlichen Effekt wie Weight Decay, ohne dessen Hyperparameter.
Relevanz für Marketing
GC kann auf jeden Optimizer aufgesetzt werden (1 Zeile Code!) und verbessert Generalisierung konsistent. Zero-Cost-Regularisierung.
Häufige Fallstricke
Nicht für alle Schichttypen geeignet (Bias-Vektoren ausnehmen). Effekt bei großen Modellen weniger untersucht. Kombination mit Weight Decay kann redundant sein.
Entstehung & Geschichte
Yong et al. (2020) zeigten, dass diese triviale Operation (Gradient − Mean) konsistente Verbesserungen über diverse Aufgaben bringt. Das Paper "Gradient Centralization: A New Optimization Technique for Deep Neural Networks" wurde auf ECCV 2020 präsentiert.
Abgrenzung & Vergleiche
Gradient Centralization vs. Weight Decay
Weight Decay bestraft große Gewichte explizit; GC reguliert Gewichtsnormen implizit durch Zentrierung der Gradienten – ähnlicher Effekt, andere Mechanik.
Gradient Centralization vs. Batch Normalization
BN normalisiert Aktivierungen (Forward-Pass); GC normalisiert Gradienten (Backward-Pass). Beide stabilisieren Training auf unterschiedliche Weise.