Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    GRPO (Group Relative Policy Optimization)

    Auch bekannt als:
    GRPO
    Gruppen-Policy-Optimierung
    DeepSeek GRPO
    Aktualisiert: 10.2.2026

    GRPO ist eine RL-Alignment-Methode, die ohne separates Reward Model auskommt – stattdessen werden Gruppen von Antworten relativ zueinander bewertet.

    Kurz erklärt

    GRPO optimiert LLMs ohne separates Reward Model – durch Gruppen-Vergleich von Antworten. Die Technik hinter DeepSeek-R1s Reasoning-Durchbruch.

    Erklärung

    Für jede Frage generiert das Modell mehrere Antworten. Die Belohnung wird innerhalb der Gruppe normalisiert (Group Relative), und die Policy wird direkt optimiert – einfacher als PPO, kein Critic/Value-Network nötig.

    Relevanz für Marketing

    GRPO ermöglichte DeepSeek-R1 und zeigt, dass Reasoning-Fähigkeiten durch reines RL (ohne SFT) emergieren können.

    Häufige Fallstricke

    Braucht gute Verifier/Reward-Signale. Hoher Compute für Gruppen-Sampling. Kann zu Mode Collapse führen ohne Diversitäts-Constraints.

    Entstehung & Geschichte

    DeepSeek veröffentlichte GRPO im DeepSeekMath Paper (2024). Wurde durch DeepSeek-R1 (Januar 2025) bekannt, wo GRPO Reasoning ohne SFT-Daten ermöglichte.

    Abgrenzung & Vergleiche

    GRPO (Group Relative Policy Optimization) vs. PPO

    PPO braucht separates Value-Network (Critic) und Reward Model; GRPO eliminiert beide durch gruppenbasierte Normalisierung.

    GRPO (Group Relative Policy Optimization) vs. DPO

    DPO braucht vorbereitete Präferenz-Paare; GRPO generiert Vergleiche on-the-fly aus Gruppen-Sampling.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!