Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Gradient Checkpointing

    Auch bekannt als:
    Aktivierungs-Checkpointing
    Rematerialization
    Memory-effizientes Training
    Aktualisiert: 9.2.2026

    Gradient Checkpointing spart GPU-Memory, indem Zwischen-Aktivierungen verworfen und beim Backward-Pass neu berechnet werden – tauscht Compute gegen Memory.

    Kurz erklärt

    Gradient Checkpointing verwirft Aktivierungen und berechnet sie beim Backward-Pass neu – spart ~60% GPU-Memory auf Kosten von ~30% mehr Rechenzeit.

    Erklärung

    Normalerweise speichert Training alle Aktivierungen für den Backward-Pass (O(n) Memory für n Layer). Checkpointing speichert nur ausgewählte Aktivierungen und berechnet den Rest neu. Spart ~60-70% Memory bei ~30% mehr Compute.

    Relevanz für Marketing

    Ermöglicht Training doppelt so großer Modelle auf gleicher GPU – Standard bei LLM-Training und Fine-Tuning.

    Entstehung & Geschichte

    Chen et al. (2016) formalisierten Gradient Checkpointing für tiefe Netze. Die Technik wurde essentiell für das Training von Modellen, die sonst nicht in GPU-Memory passen. PyTorch und TensorFlow integrieren es als Standard-Feature. Alle modernen LLM-Trainings nutzen Checkpointing.

    Abgrenzung & Vergleiche

    Gradient Checkpointing vs. Gradient Accumulation

    Checkpointing spart Aktivierungs-Memory (Compute ↑); Accumulation spart Batch-Memory (Training langsamer, gleicher Compute pro Sample).

    Gradient Checkpointing vs. Mixed Precision Training

    Checkpointing verwirft und berechnet neu; Mixed Precision halbiert Speicherbedarf durch FP16/BF16 statt FP32.

    Verwandte Services

    Verwandte Begriffe

    Gradient AccumulationMixed PrecisionMemory OptimizationBackpropagation
    👋Fragen? Chatte mit uns!