Alignment Tax
Die Performance-Einbußen, die durch Alignment- und Safety-Training entstehen – ein Modell wird sicherer, aber möglicherweise weniger fähig.
Alignment Tax = Performance-Verlust durch Safety-Training. Sicherere Modelle können weniger kreativ oder fähig sein – ein bewusster Trade-off, den bessere Alignment-Methoden minimieren.
Erklärung
RLHF, Content Filter und Guardrails können die Kreativität und Fähigkeit eines Modells einschränken. "Alignment Tax" beschreibt diesen Trade-off zwischen Sicherheit und Leistung.
Relevanz für Marketing
Unternehmen müssen die Alignment Tax bewusst akzeptieren: Wie viel Capability opfern sie für Safety? Zu viel Alignment macht Modelle zu konservativ.
Häufige Fallstricke
Alignment Tax als Argument gegen Safety missbrauchen. Schwer zu quantifizieren. Verändert sich mit besseren Alignment-Techniken.
Entstehung & Geschichte
Der Begriff entstand in der AI-Safety-Community um 2022. OpenAI und Anthropic zeigten, dass InstructGPT/Claude trotz RLHF wettbewerbsfähig bleiben. Neuere Methoden wie DPO und Constitutional AI reduzieren die Alignment Tax.
Abgrenzung & Vergleiche
Alignment Tax vs. Alignment
Alignment ist das Ziel (Modell tut, was gewollt); Alignment Tax ist der Preis dafür (Performance-Einbußen).
Alignment Tax vs. Guardrails
Guardrails blockieren Outputs nachträglich; Alignment Tax entsteht durch Training, das das Modell selbst verändert.