Online Distillation
Eine Distillationsvariante, bei der mehrere Modelle gleichzeitig trainiert werden und sich gegenseitig als Teacher dienen – kein vortrainierter Teacher nötig.
Online Distillation lässt mehrere Modelle gleichzeitig trainieren und sich gegenseitig als Teacher dienen – eliminiert den Bedarf an vortrainierten Teacher-Modellen.
Erklärung
Deep Mutual Learning (Zhang et al., 2018): Zwei oder mehr Netzwerke trainieren parallel, jedes lernt aus den Soft-Labels der anderen. Kein Modell muss vorab trainiert sein. Alle Modelle verbessern sich gegenseitig.
Relevanz für Marketing
Online Distillation eliminiert den Bedarf an großen vortrainierten Teacher-Modellen – ideal für Szenarien, wo kein starkes Teacher-Modell existiert.
Beispiel
Zwei ResNet-32 trainieren parallel mit Mutual Learning und übertreffen einzeln trainierte ResNet-32 – beide Modelle werden durch gegenseitiges Lernen besser.
Häufige Fallstricke
Höherer Trainings-Compute (N Modelle parallel). Konvergenz kann instabil sein. Funktioniert am besten mit 2-4 Modellen, darüber hinaus diminishing returns.
Entstehung & Geschichte
Zhang et al. (2018) führten Deep Mutual Learning ein. Anil et al. (Google, 2018) zeigten Co-Distillation für verteiltes Training. Der Ansatz wurde für Federated Learning und Privacy-preserving Szenarien weiterentwickelt.
Abgrenzung & Vergleiche
Online Distillation vs. Knowledge Distillation
Standard-KD: Ein vortrainierter Teacher, ein Student. Online: Alle Modelle trainieren und lehren gleichzeitig.