Self-Distillation
Eine Variante der Knowledge Distillation, bei der ein Modell sich selbst als Teacher nutzt – das gleiche oder ein identisches Modell wird als Lehrer für ein neues Training verwendet.
Self-Distillation nutzt ein Modell als seinen eigenen Teacher – verbessert Qualität ohne größeres Teacher-Modell, Basis für DINO und moderne Vision Foundation Models.
Erklärung
Born-Again Networks (Furlanello et al., 2018) zeigten: Ein Student mit identischer Architektur wie der Teacher kann den Teacher übertreffen. DINO (Caron et al., 2021) nutzt Self-Distillation mit einem Momentum-Teacher für Self-Supervised Vision Learning.
Relevanz für Marketing
Self-Distillation verbessert Modelle ohne größere Teacher-Modelle – ideal wenn kein stärkeres Modell verfügbar ist. Basis für DINO, DINOv2 und moderne Vision Foundation Models.
Beispiel
DINO trainiert einen Vision Transformer mit Self-Distillation: Der Student sieht kleine Bildausschnitte, der Teacher (exponentiell gleitender Durchschnitt) sieht das volle Bild. Ergebnis: State-of-the-Art Features ohne Labels.
Häufige Fallstricke
Verbesserungen sind kleiner als bei Teacher-Student mit größerem Teacher. Kann zu Overfitting auf eigene Fehler führen. Momentum-Hyperparameter kritisch für Stabilität.
Entstehung & Geschichte
Furlanello et al. (2018) zeigten mit "Born-Again Networks", dass Self-Distillation den Teacher übertreffen kann. Caron et al. (2021) revolutionierten Self-Supervised Learning mit DINO. DINOv2 (2023) skalierte den Ansatz zu einem der besten Vision Foundation Models.
Abgrenzung & Vergleiche
Self-Distillation vs. Knowledge Distillation
Standard-Distillation nutzt ein größeres Teacher-Modell; Self-Distillation nutzt ein gleich großes oder identisches Modell als Teacher.