Test-Time Training (TTT)
Ein Paradigma, bei dem ein Modell sich während der Inferenz an jeden neuen Input anpasst, indem es einen Self-Supervised-Loss auf der Test-Instanz optimiert – "Lernen beim Vorhersagen".
Test-Time Training adaptiert Modelle während der Inferenz an jeden Input – erhöht Robustheit bei Domain Shift ohne Retraining.
Erklärung
TTT nutzt einen auxiliären Self-Supervised-Task (z.B. Rotation-Prediction, Masked Token Prediction), der ohne Labels berechnet werden kann. Vor jeder Vorhersage werden einige Modell-Parameter auf dieser Instanz fine-tuned.
Relevanz für Marketing
Erhöht Robustheit bei Distribution Shift: Marketing-Modelle können sich dynamisch an neue Märkte, Trends oder Kampagnen anpassen, ohne Retraining. Reduziert Performance-Drops bei Out-of-Distribution-Daten.
Beispiel
Ein Sentiment-Modell, trainiert auf Tech-Reviews, wird auf Fashion-Reviews angewendet. Mit TTT adaptiert es sich an den neuen Domain-Stil, indem es Masked-Language-Modeling auf jedem Review durchführt.
Häufige Fallstricke
Erhöhte Inferenz-Latenz (mehrere Forward/Backward-Passes pro Sample). Hyperparameter-Tuning kritisch. Nicht alle Tasks eignen sich für TTT. GPU-Ressourcen bei Inferenz nötig.
Entstehung & Geschichte
Sun et al. (2020) führten TTT als Self-Supervised Adaptation ein. TTT-Linear und TTT-MLP (2024) nutzten TTT als versteckte Schicht in Sprachmodellen und zeigten lineare Skalierung als Alternative zu KV-Cache.
Abgrenzung & Vergleiche
Test-Time Training (TTT) vs. Fine-Tuning
Fine-Tuning trainiert auf einem Dataset vor Deployment; TTT adaptiert pro Input während Inference – dynamischer aber langsamer.