Quantization-Aware Training (QAT)
Eine Trainingsmethode, die Quantisierungsfehler während des Trainings simuliert, damit das Modell lernt, mit niedrigerer Präzision umzugehen – höhere Qualität als Post-Training Quantization.
Quantization-Aware Training simuliert Quantisierungsfehler beim Training – das Modell lernt, mit niedrigerer Präzision umzugehen und behält mehr Qualität als bei Post-Training Quantization.
Erklärung
QAT fügt "Fake Quantization"-Nodes in den Compute-Graphen ein: Forward Pass simuliert INT8/INT4-Rundung, Backpropagation nutzt Straight-Through Estimator für Gradienten. Das Modell kompensiert Quantisierungsfehler während des Trainings.
Relevanz für Marketing
QAT liefert signifikant bessere Qualität als Post-Training Quantization bei extremer Quantisierung (4-bit, 2-bit). Wichtig für Edge-Deployment wo jedes Bit zählt.
Beispiel
Google nutzt QAT für On-Device-Modelle: Ein INT4-QAT-Modell für Sprach-erkennung auf Pixel-Phones erreicht 99% der FP32-Qualität bei 4x weniger Speicher.
Häufige Fallstricke
Deutlich aufwändiger als Post-Training Quantization (ganzes Training nötig). Nicht immer notwendig – PTQ reicht für INT8 oft aus. Hyperparameter-sensitiv.
Entstehung & Geschichte
Jacob et al. (Google, 2018) formalisierten QAT für CNNs. Mit LLMs wurde QAT 2024 durch LLM-QAT und BitNet für extreme Quantisierung (1-2 Bit) relevant. Microsofts BitNet b1.58 zeigte 2024 ternäre Gewichte mit QAT.
Abgrenzung & Vergleiche
Quantization-Aware Training (QAT) vs. Post-Training Quantization (PTQ)
PTQ quantisiert nach dem Training (schnell, einfach); QAT simuliert Quantisierung während des Trainings (besser bei extremer Quantisierung).
Quantization-Aware Training (QAT) vs. GPTQ
GPTQ ist eine PTQ-Methode mit Kalibrierungsdaten; QAT trainiert das volle Modell mit Quantisierungssimulation.