Gradient Checkpointing
Gradient Checkpointing spart GPU-Memory, indem Zwischen-Aktivierungen verworfen und beim Backward-Pass neu berechnet werden – tauscht Compute gegen Memory.
Gradient Checkpointing verwirft Aktivierungen und berechnet sie beim Backward-Pass neu – spart ~60% GPU-Memory auf Kosten von ~30% mehr Rechenzeit.
Erklärung
Normalerweise speichert Training alle Aktivierungen für den Backward-Pass (O(n) Memory für n Layer). Checkpointing speichert nur ausgewählte Aktivierungen und berechnet den Rest neu. Spart ~60-70% Memory bei ~30% mehr Compute.
Relevanz für Marketing
Ermöglicht Training doppelt so großer Modelle auf gleicher GPU – Standard bei LLM-Training und Fine-Tuning.
Entstehung & Geschichte
Chen et al. (2016) formalisierten Gradient Checkpointing für tiefe Netze. Die Technik wurde essentiell für das Training von Modellen, die sonst nicht in GPU-Memory passen. PyTorch und TensorFlow integrieren es als Standard-Feature. Alle modernen LLM-Trainings nutzen Checkpointing.
Abgrenzung & Vergleiche
Gradient Checkpointing vs. Gradient Accumulation
Checkpointing spart Aktivierungs-Memory (Compute ↑); Accumulation spart Batch-Memory (Training langsamer, gleicher Compute pro Sample).
Gradient Checkpointing vs. Mixed Precision Training
Checkpointing verwirft und berechnet neu; Mixed Precision halbiert Speicherbedarf durch FP16/BF16 statt FP32.