Gradient Noise
Das natürliche Rauschen in Gradientenschätzungen durch Mini-Batch-Sampling – wirkt als implizite Regularisierung und hilft, bessere Minima zu finden.
Gradient Noise aus Mini-Batch-Sampling ist kein Bug, sondern Feature: es wirkt als natürliche Regularisierung und hilft SGD, flachere, bessere Minima zu finden.
Erklärung
Jeder Mini-Batch liefert eine verrauschte Schätzung des wahren Gradienten. Dieses Rauschen hilft, aus scharfen Minima zu "entkommen" und flachere, besser generalisierende Lösungen zu finden.
Relevanz für Marketing
Gradient Noise erklärt, warum kleinere Batch Sizes oft besser generalisieren und warum SGD flachere Minima findet als Full-Batch GD.
Häufige Fallstricke
Zu viel Noise (zu kleine Batches) verhindert Konvergenz. Zu wenig Noise (zu große Batches) kann Generalisierung verschlechtern.
Entstehung & Geschichte
Die regularisierende Wirkung von SGD-Noise wurde ab 2015 intensiv erforscht. Keskar et al. (2017) zeigten, dass große Batches zu scharfen Minima führen. Smith & Le (2018) formalisierten SGD-Noise als Bayessche Inferenz.
Abgrenzung & Vergleiche
Gradient Noise vs. Dropout
Dropout fügt explizites Noise zu Aktivierungen hinzu (Regularisierung by design); Gradient Noise entsteht natürlich durch Mini-Batch-Sampling.
Gradient Noise vs. Gradient Clipping
Gradient Clipping begrenzt die Größe von Gradienten (gegen Exploding); Gradient Noise beschreibt die natürliche Varianz (Feature, kein Problem).