Preference Data
Datensätze, in denen Menschen (oder AI-Judges) angeben, welche von zwei Modell-Antworten besser ist – das Trainingsmaterial für RLHF, DPO und ähnliche Alignment-Methoden.
Preference Data = "Antwort A ist besser als B" – das Trainingsmaterial für RLHF und DPO. Qualität der Daten bestimmt direkt die Alignment-Qualität des Modells.
Erklärung
Preference Data besteht aus Triplets: (Prompt, Chosen Response, Rejected Response). Qualität und Diversität der Daten bestimmen die Alignment-Qualität.
Relevanz für Marketing
Ohne hochwertige Preference Data kein gutes Alignment. Die Datenqualität bestimmt, ob ein Modell hilfreicher, sicherer oder nur "glatter" wird.
Häufige Fallstricke
Inter-Annotator-Disagreement. Bias der Annotatoren. Preference-Hacking (Modell lernt Länge statt Qualität). Teuer zu erstellen.
Entstehung & Geschichte
InstructGPT (2022) nutzte ~40k Preference-Vergleiche. Anthropic HH-RLHF wurde zum offenen Standard-Dataset. Open-Source-Alternativen wie UltraFeedback und Nectar folgten 2023.
Abgrenzung & Vergleiche
Preference Data vs. SFT Data (Instruction Data)
SFT-Daten zeigen gute Antworten; Preference Data zeigen, welche Antwort besser ist – relativer Vergleich statt absoluter Qualität.
Preference Data vs. RLAIF Data
Menschliche Preference Data ist teuer aber authentisch; RLAIF generiert Präferenzen automatisch via AI-Judge – skalierbar aber mit Bias-Risiko.