Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (Stochastic Gradient Descent (SGD))

    Stochastischer Gradientenabstieg

    Auch bekannt als:
    SGD
    Stochastischer GD
    Mini-Batch SGD
    Aktualisiert: 10.2.2026

    Variante des Gradientenabstiegs, die pro Update nur einen Mini-Batch statt aller Daten nutzt – schneller und oft besser generalisierend.

    Kurz erklärt

    SGD nutzt Mini-Batches statt aller Daten pro Update – schneller als Batch GD und der Noise wirkt als natürliche Regularisierung. Mit Momentum ist es Goldstandard für Vision-Modelle.

    Erklärung

    SGD approximiert den wahren Gradienten mit einem Mini-Batch. Der resultierende Noise wirkt als implizite Regularisierung und hilft, flacheren Minima zu finden.

    Relevanz für Marketing

    SGD mit Momentum ist weiterhin Goldstandard für Computer Vision (ResNet, ViT). Adam dominiert bei NLP/LLMs, aber SGD generalisiert oft besser.

    Häufige Fallstricke

    Langsame Konvergenz ohne Momentum. Sensibel auf Learning Rate. Manuelle Learning Rate Schedules nötig.

    Entstehung & Geschichte

    Robbins & Monro (1951) begründeten stochastische Approximation. Mini-Batch SGD wurde mit GPUs in den 2010ern praktikabel. SGD mit Momentum (Polyak, 1964) und Nesterov-Variante blieben jahrzehntelang dominante Optimizer.

    Abgrenzung & Vergleiche

    Stochastischer Gradientenabstieg vs. Adam Optimizer

    SGD nutzt eine globale Learning Rate; Adam adaptiert pro Parameter. SGD generalisiert oft besser, Adam konvergiert schneller.

    Stochastischer Gradientenabstieg vs. Full-Batch Gradient Descent

    Full-Batch verwendet alle Daten (deterministisch, langsam); SGD nutzt Mini-Batches (stochastisch, schnell, regularisierend).

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!