Progressive Shrinking
Eine Trainingstechnik, bei der ein großes Netzwerk schrittweise verkleinert wird – erst Kernel, dann Tiefe, dann Breite – um ein Supernet zu trainieren, das viele Subnetze unterstützt.
Progressive Shrinking verkleinert Netzwerke schrittweise in Kernel, Tiefe und Breite – die Schlüsseltechnik, die Once-for-All Supernets ermöglicht.
Erklärung
Progressive Shrinking trainiert zuerst das volle Modell, dann werden schrittweise kleinere Varianten mit-trainiert: Phase 1 (Elastic Kernel), Phase 2 (Elastic Depth), Phase 3 (Elastic Width). Jede Phase nutzt Knowledge Distillation vom vollen Modell.
Relevanz für Marketing
Zentrale Technik hinter Once-for-All Netzwerken – ermöglicht das Training von Supernets, die sich dynamisch an Hardware-Constraints anpassen.
Beispiel
In OFA wird ein ImageNet-Modell progressiv geschrumpft: Erst werden kleinere Kernel (7→5→3) trainiert, dann werden Layer-Drops trainiert, schließlich Channel-Reduktionen. Das Ergebnis: Ein Modell, viele Deployment-Optionen.
Häufige Fallstricke
Komplexe Multi-Phase Training-Pipeline. Reihenfolge der Shrinking-Dimensionen ist wichtig. Benötigt sorgfältige Hyperparameter-Abstimmung pro Phase.
Entstehung & Geschichte
Eingeführt von Cai et al. (2020) als Kernmethode des Once-for-All Frameworks. Inspiriert von Curriculum Learning und graduellem Pruning (Zhu & Gupta, 2017).
Abgrenzung & Vergleiche
Progressive Shrinking vs. One-Shot NAS
One-Shot NAS trainiert alle Subnetze gleichzeitig; Progressive Shrinking führt sie schrittweise ein für stabileres Training.