Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Alignment Tax

    Auch bekannt als:
    Alignment-Kosten
    Safety-Performance-Tradeoff
    Aktualisiert: 10.2.2026

    Die Performance-Einbußen, die durch Alignment- und Safety-Training entstehen – ein Modell wird sicherer, aber möglicherweise weniger fähig.

    Kurz erklärt

    Alignment Tax = Performance-Verlust durch Safety-Training. Sicherere Modelle können weniger kreativ oder fähig sein – ein bewusster Trade-off, den bessere Alignment-Methoden minimieren.

    Erklärung

    RLHF, Content Filter und Guardrails können die Kreativität und Fähigkeit eines Modells einschränken. "Alignment Tax" beschreibt diesen Trade-off zwischen Sicherheit und Leistung.

    Relevanz für Marketing

    Unternehmen müssen die Alignment Tax bewusst akzeptieren: Wie viel Capability opfern sie für Safety? Zu viel Alignment macht Modelle zu konservativ.

    Häufige Fallstricke

    Alignment Tax als Argument gegen Safety missbrauchen. Schwer zu quantifizieren. Verändert sich mit besseren Alignment-Techniken.

    Entstehung & Geschichte

    Der Begriff entstand in der AI-Safety-Community um 2022. OpenAI und Anthropic zeigten, dass InstructGPT/Claude trotz RLHF wettbewerbsfähig bleiben. Neuere Methoden wie DPO und Constitutional AI reduzieren die Alignment Tax.

    Abgrenzung & Vergleiche

    Alignment Tax vs. Alignment

    Alignment ist das Ziel (Modell tut, was gewollt); Alignment Tax ist der Preis dafür (Performance-Einbußen).

    Alignment Tax vs. Guardrails

    Guardrails blockieren Outputs nachträglich; Alignment Tax entsteht durch Training, das das Modell selbst verändert.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!