Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Gradient Noise

    Auch bekannt als:
    Gradientenrauschen
    Stochastisches Rauschen
    SGD Noise
    Aktualisiert: 10.2.2026

    Das natürliche Rauschen in Gradientenschätzungen durch Mini-Batch-Sampling – wirkt als implizite Regularisierung und hilft, bessere Minima zu finden.

    Kurz erklärt

    Gradient Noise aus Mini-Batch-Sampling ist kein Bug, sondern Feature: es wirkt als natürliche Regularisierung und hilft SGD, flachere, bessere Minima zu finden.

    Erklärung

    Jeder Mini-Batch liefert eine verrauschte Schätzung des wahren Gradienten. Dieses Rauschen hilft, aus scharfen Minima zu "entkommen" und flachere, besser generalisierende Lösungen zu finden.

    Relevanz für Marketing

    Gradient Noise erklärt, warum kleinere Batch Sizes oft besser generalisieren und warum SGD flachere Minima findet als Full-Batch GD.

    Häufige Fallstricke

    Zu viel Noise (zu kleine Batches) verhindert Konvergenz. Zu wenig Noise (zu große Batches) kann Generalisierung verschlechtern.

    Entstehung & Geschichte

    Die regularisierende Wirkung von SGD-Noise wurde ab 2015 intensiv erforscht. Keskar et al. (2017) zeigten, dass große Batches zu scharfen Minima führen. Smith & Le (2018) formalisierten SGD-Noise als Bayessche Inferenz.

    Abgrenzung & Vergleiche

    Gradient Noise vs. Dropout

    Dropout fügt explizites Noise zu Aktivierungen hinzu (Regularisierung by design); Gradient Noise entsteht natürlich durch Mini-Batch-Sampling.

    Gradient Noise vs. Gradient Clipping

    Gradient Clipping begrenzt die Größe von Gradienten (gegen Exploding); Gradient Noise beschreibt die natürliche Varianz (Feature, kein Problem).

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!