Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Online Distillation

    Auch bekannt als:
    Online-Destillation
    Mutual Learning
    Collaborative Learning
    Co-Distillation
    Aktualisiert: 11.2.2026

    Eine Distillationsvariante, bei der mehrere Modelle gleichzeitig trainiert werden und sich gegenseitig als Teacher dienen – kein vortrainierter Teacher nötig.

    Kurz erklärt

    Online Distillation lässt mehrere Modelle gleichzeitig trainieren und sich gegenseitig als Teacher dienen – eliminiert den Bedarf an vortrainierten Teacher-Modellen.

    Erklärung

    Deep Mutual Learning (Zhang et al., 2018): Zwei oder mehr Netzwerke trainieren parallel, jedes lernt aus den Soft-Labels der anderen. Kein Modell muss vorab trainiert sein. Alle Modelle verbessern sich gegenseitig.

    Relevanz für Marketing

    Online Distillation eliminiert den Bedarf an großen vortrainierten Teacher-Modellen – ideal für Szenarien, wo kein starkes Teacher-Modell existiert.

    Beispiel

    Zwei ResNet-32 trainieren parallel mit Mutual Learning und übertreffen einzeln trainierte ResNet-32 – beide Modelle werden durch gegenseitiges Lernen besser.

    Häufige Fallstricke

    Höherer Trainings-Compute (N Modelle parallel). Konvergenz kann instabil sein. Funktioniert am besten mit 2-4 Modellen, darüber hinaus diminishing returns.

    Entstehung & Geschichte

    Zhang et al. (2018) führten Deep Mutual Learning ein. Anil et al. (Google, 2018) zeigten Co-Distillation für verteiltes Training. Der Ansatz wurde für Federated Learning und Privacy-preserving Szenarien weiterentwickelt.

    Abgrenzung & Vergleiche

    Online Distillation vs. Knowledge Distillation

    Standard-KD: Ein vortrainierter Teacher, ein Student. Online: Alle Modelle trainieren und lehren gleichzeitig.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!