Safety Training
Der Prozess, LLMs durch spezialisiertes Training sicherer zu machen – umfasst RLHF, DPO, Constitutional AI und Red-Teaming-basiertes Training.
Safety Training macht LLMs sicher durch RLHF, DPO und Red-Teaming – verwandelt ein rohes Sprachmodell in ein verantwortungsvolles Produkt. Der Kern hinter ChatGPT und Claude.
Erklärung
Safety Training hat mehrere Stufen: SFT auf sichere Antworten, RLHF/DPO für Preference Alignment, Red-Teaming zur Schwachstellenfindung, iteratives Nachtraining.
Relevanz für Marketing
Safety Training bestimmt, ob ein LLM production-ready ist. Ohne es generieren Modelle toxische, falsche oder gefährliche Outputs.
Häufige Fallstricke
Over-Safety macht Modelle nutzlos (weigern sich, harmlose Anfragen zu beantworten). Safety kann durch Jailbreaks umgangen werden. Bias in Safety-Daten.
Entstehung & Geschichte
OpenAI führte systematisches Safety Training mit InstructGPT (2022) ein. Anthropic erweiterte es mit Constitutional AI. Meta veröffentlichte Llama 2 mit detailliertem Safety-Training-Paper. Safety Training ist nun Standard für alle Commercial LLMs.
Abgrenzung & Vergleiche
Safety Training vs. RLHF
RLHF ist eine spezifische Safety-Training-Methode; Safety Training umfasst den gesamten Prozess inkl. SFT, Red-Teaming etc.
Safety Training vs. Guardrails
Safety Training ändert das Modell selbst; Guardrails sind externe Filter, die unveränderte Outputs nachträglich prüfen.