Stochastischer Gradientenabstieg
Variante des Gradientenabstiegs, die pro Update nur einen Mini-Batch statt aller Daten nutzt – schneller und oft besser generalisierend.
SGD nutzt Mini-Batches statt aller Daten pro Update – schneller als Batch GD und der Noise wirkt als natürliche Regularisierung. Mit Momentum ist es Goldstandard für Vision-Modelle.
Erklärung
SGD approximiert den wahren Gradienten mit einem Mini-Batch. Der resultierende Noise wirkt als implizite Regularisierung und hilft, flacheren Minima zu finden.
Relevanz für Marketing
SGD mit Momentum ist weiterhin Goldstandard für Computer Vision (ResNet, ViT). Adam dominiert bei NLP/LLMs, aber SGD generalisiert oft besser.
Häufige Fallstricke
Langsame Konvergenz ohne Momentum. Sensibel auf Learning Rate. Manuelle Learning Rate Schedules nötig.
Entstehung & Geschichte
Robbins & Monro (1951) begründeten stochastische Approximation. Mini-Batch SGD wurde mit GPUs in den 2010ern praktikabel. SGD mit Momentum (Polyak, 1964) und Nesterov-Variante blieben jahrzehntelang dominante Optimizer.
Abgrenzung & Vergleiche
Stochastischer Gradientenabstieg vs. Adam Optimizer
SGD nutzt eine globale Learning Rate; Adam adaptiert pro Parameter. SGD generalisiert oft besser, Adam konvergiert schneller.
Stochastischer Gradientenabstieg vs. Full-Batch Gradient Descent
Full-Batch verwendet alle Daten (deterministisch, langsam); SGD nutzt Mini-Batches (stochastisch, schnell, regularisierend).