GRPO (Group Relative Policy Optimization)
GRPO ist eine RL-Alignment-Methode, die ohne separates Reward Model auskommt – stattdessen werden Gruppen von Antworten relativ zueinander bewertet.
GRPO optimiert LLMs ohne separates Reward Model – durch Gruppen-Vergleich von Antworten. Die Technik hinter DeepSeek-R1s Reasoning-Durchbruch.
Erklärung
Für jede Frage generiert das Modell mehrere Antworten. Die Belohnung wird innerhalb der Gruppe normalisiert (Group Relative), und die Policy wird direkt optimiert – einfacher als PPO, kein Critic/Value-Network nötig.
Relevanz für Marketing
GRPO ermöglichte DeepSeek-R1 und zeigt, dass Reasoning-Fähigkeiten durch reines RL (ohne SFT) emergieren können.
Häufige Fallstricke
Braucht gute Verifier/Reward-Signale. Hoher Compute für Gruppen-Sampling. Kann zu Mode Collapse führen ohne Diversitäts-Constraints.
Entstehung & Geschichte
DeepSeek veröffentlichte GRPO im DeepSeekMath Paper (2024). Wurde durch DeepSeek-R1 (Januar 2025) bekannt, wo GRPO Reasoning ohne SFT-Daten ermöglichte.
Abgrenzung & Vergleiche
GRPO (Group Relative Policy Optimization) vs. PPO
PPO braucht separates Value-Network (Critic) und Reward Model; GRPO eliminiert beide durch gruppenbasierte Normalisierung.
GRPO (Group Relative Policy Optimization) vs. DPO
DPO braucht vorbereitete Präferenz-Paare; GRPO generiert Vergleiche on-the-fly aus Gruppen-Sampling.