Gradient Accumulation
Gradient Accumulation summiert Gradienten über mehrere Mini-Batches auf, bevor ein Optimierungsschritt erfolgt – simuliert größere Batch-Sizes ohne mehr GPU-Memory.
Gradient Accumulation simuliert große Batches durch Aufaddieren über Mini-Batches – trainiert Modelle, die sonst nicht in GPU-Memory passen.
Erklärung
Statt Batch-Size 32 auf einer GPU: 4 Mini-Batches à 8 akkumulieren, dann Update. Effektiv identisch zu Batch 32, aber nur Memory für 8 nötig. Standard-Technik für Fine-Tuning auf Consumer-GPUs.
Relevanz für Marketing
Ermöglicht Training großer Modelle auf kleinen GPUs – essentiell für LoRA Fine-Tuning und Edge-ML.
Entstehung & Geschichte
Die Technik existiert seit den Anfängen des GPU-Trainings. Sie wurde mit dem Trend zu immer größeren Modellen und begrenzter Consumer-GPU-Memory (2020+) zunehmend wichtig. Tools wie HuggingFace Trainer und DeepSpeed integrieren Gradient Accumulation als Standard-Feature.
Abgrenzung & Vergleiche
Gradient Accumulation vs. Gradient Checkpointing
Accumulation spart Memory durch kleinere Batches; Checkpointing spart Memory durch Neuberechnung von Aktivierungen statt Speichern.