Model Merging
Techniken zum Kombinieren mehrerer trainierter Modelle zu einem einzigen Modell, das die Stärken aller Quellmodelle vereint – ohne zusätzliches Training.
Model Merging kombiniert mehrere trainierte Modelle zu einem einzigen – Capabilities stacken ohne Extra-Training durch Weight Averaging, SLERP oder Task Arithmetic.
Erklärung
Model Merging mittelt die Gewichte mehrerer Modelle (linear, SLERP, TIES, DARE). "Model Soup" kombiniert Fine-Tuning-Checkpoints. Task Arithmetic addiert/subtrahiert Task-Vektoren. Ermöglicht Capability-Stacking ohne Compute-Explosion.
Relevanz für Marketing
Hot Trend in Open-Source-LLM-Community: Merge-Modelle dominieren Leaderboards. Marketing-Teams können spezialisierte Modelle (Coding, Kreativität, Deutsch) zu maßgeschneiderten Assistenten kombinieren.
Beispiel
Ein Team merged ein deutsches Sprachmodell mit einem Kreativ-Schreib-Modell und einem Fakten-fokussierten Modell. Das Ergebnis: Ein Marketing-Assistent, der kreative deutsche Texte mit hoher Faktentreue generiert.
Häufige Fallstricke
Funktioniert nur bei Modellen mit gleicher Architektur. Nicht alle Fähigkeiten übertragen sich sauber. Kann zu Interference zwischen Tasks führen. Qualität der Merge-Methode kritisch.
Entstehung & Geschichte
Wortsman et al. (2022) prägten "Model Soups" für gemittelte Fine-Tuning-Checkpoints. Ilharco et al. (2022) führten Task Arithmetic ein. TIES-Merging (Yadav et al., 2023) und DARE (Yu et al., 2023) verbesserten die Merge-Qualität. 2024 dominieren Merged-Modelle Open-Source-Leaderboards.
Abgrenzung & Vergleiche
Model Merging vs. Ensemble Learning
Ensembles lassen mehrere Modelle parallel laufen (N× Kosten); Merging erzeugt ein einzelnes Modell (1× Kosten) aus mehreren.
Model Merging vs. Knowledge Distillation
Distillation trainiert ein neues Modell von einem Teacher; Merging kombiniert Gewichte ohne zusätzliches Training.