Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Sparse Training

    Auch bekannt als:
    Spärliches Training
    Dynamic Sparse Training
    Sparse-from-Scratch
    Aktualisiert: 11.2.2026

    Training mit Sparsity von Anfang an – im Gegensatz zu "erst dicht trainieren, dann prunen" wird das Modell von Beginn an spärlich gehalten und Verbindungen werden dynamisch hinzugefügt/entfernt.

    Kurz erklärt

    Sparse Training hält Modelle von Anfang an spärlich und tauscht Verbindungen dynamisch – spart FLOPs beim Training selbst, nicht nur bei Inferenz.

    Erklärung

    Methoden wie RigL (Evci et al., 2020) und SET (Mocanu et al., 2018) halten während des Trainings eine feste Sparsity aufrecht, tauschen aber regelmäßig Verbindungen aus: unwichtige werden entfernt, vielversprechende hinzugefügt. Dies spart FLOPs beim Training selbst.

    Relevanz für Marketing

    Sparse Training verspricht Effizienz nicht nur bei Inferenz, sondern auch beim Training – potenziell 10x günstigeres LLM-Pre-Training, wenn Hardware Sparsity unterstützt.

    Beispiel

    RigL trainiert ResNet-50 mit 90% Sparsity und erreicht 75% Top-1 auf ImageNet – gleiche Accuracy wie dichtes Training, aber mit 5x weniger FLOPs während des Trainings.

    Häufige Fallstricke

    Aktuelle GPUs sind schlecht für Sparse-Training optimiert. Dynamisches Verbindungs-Routing erzeugt Overhead. Für Transformer/LLMs noch in früher Forschung.

    Entstehung & Geschichte

    Mocanu et al. führten 2018 SET (Sparse Evolutionary Training) ein. Evci et al. (Google, 2020) veröffentlichten RigL, das dichtes Training bei 90% Sparsity matcht. NVIDIA erforscht Hardware-Support mit Ampere Sparse Tensor Cores.

    Abgrenzung & Vergleiche

    Sparse Training vs. Post-Training Pruning

    Post-Training Pruning entfernt Gewichte nach dichtem Training; Sparse Training hält das Modell von Anfang an spärlich.

    Sparse Training vs. Lottery Ticket Hypothesis

    Lottery Ticket findet Sparse Subnetze durch iteratives Prune-Retrain; Sparse Training entdeckt sie dynamisch während eines einzelnen Training-Runs.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!