Sparse Training
Training mit Sparsity von Anfang an – im Gegensatz zu "erst dicht trainieren, dann prunen" wird das Modell von Beginn an spärlich gehalten und Verbindungen werden dynamisch hinzugefügt/entfernt.
Sparse Training hält Modelle von Anfang an spärlich und tauscht Verbindungen dynamisch – spart FLOPs beim Training selbst, nicht nur bei Inferenz.
Erklärung
Methoden wie RigL (Evci et al., 2020) und SET (Mocanu et al., 2018) halten während des Trainings eine feste Sparsity aufrecht, tauschen aber regelmäßig Verbindungen aus: unwichtige werden entfernt, vielversprechende hinzugefügt. Dies spart FLOPs beim Training selbst.
Relevanz für Marketing
Sparse Training verspricht Effizienz nicht nur bei Inferenz, sondern auch beim Training – potenziell 10x günstigeres LLM-Pre-Training, wenn Hardware Sparsity unterstützt.
Beispiel
RigL trainiert ResNet-50 mit 90% Sparsity und erreicht 75% Top-1 auf ImageNet – gleiche Accuracy wie dichtes Training, aber mit 5x weniger FLOPs während des Trainings.
Häufige Fallstricke
Aktuelle GPUs sind schlecht für Sparse-Training optimiert. Dynamisches Verbindungs-Routing erzeugt Overhead. Für Transformer/LLMs noch in früher Forschung.
Entstehung & Geschichte
Mocanu et al. führten 2018 SET (Sparse Evolutionary Training) ein. Evci et al. (Google, 2020) veröffentlichten RigL, das dichtes Training bei 90% Sparsity matcht. NVIDIA erforscht Hardware-Support mit Ampere Sparse Tensor Cores.
Abgrenzung & Vergleiche
Sparse Training vs. Post-Training Pruning
Post-Training Pruning entfernt Gewichte nach dichtem Training; Sparse Training hält das Modell von Anfang an spärlich.
Sparse Training vs. Lottery Ticket Hypothesis
Lottery Ticket findet Sparse Subnetze durch iteratives Prune-Retrain; Sparse Training entdeckt sie dynamisch während eines einzelnen Training-Runs.