Scalable Oversight
Methoden, um AI-Systeme zu überwachen und zu korrigieren, die menschliche Fähigkeiten übersteigen – wie kann man etwas beaufsichtigen, das klüger ist als man selbst?
Scalable Oversight = Wie beaufsichtigt man AI, die klüger ist als Menschen? Ansätze: AI-assisted Evaluation, Debate, Recursive Reward Modeling. Eines der wichtigsten offenen AI-Safety-Probleme.
Erklärung
Ansätze: AI-assisted evaluation (schwächere AIs evaluieren stärkere), Debate (zwei AIs argumentieren, Mensch urteilt), Recursive Reward Modeling, Interpretability-Tools.
Relevanz für Marketing
Je fähiger AI wird, desto schwieriger wird menschliche Aufsicht. Scalable Oversight ist eines der wichtigsten offenen Probleme der AI Safety.
Häufige Fallstricke
Kein Ansatz ist bewiesen sicher. AI-assisted Evaluation kann gleiche Blindstellen haben. Debate kann manipulation anfällig sein.
Entstehung & Geschichte
Amodei et al. (2016, OpenAI) definierten das Problem. AI Safety via Debate (Irving et al., 2018) und Recursive Reward Modeling (Leike et al., 2018) waren frühe Lösungsansätze. Anthropic und OpenAI forschen aktiv daran.
Abgrenzung & Vergleiche
Scalable Oversight vs. Human-in-the-Loop
HITL funktioniert wenn Menschen die AI verstehen; Scalable Oversight ist nötig wenn AI menschliche Fähigkeiten übersteigt.
Scalable Oversight vs. RLAIF
RLAIF ist eine praktische Scalable-Oversight-Technik; Scalable Oversight ist das breitere Forschungsfeld.