Actor-Critic
RL-Architektur mit zwei Komponenten: ein Actor (Policy) wählt Aktionen, ein Critic (Value Function) bewertet sie – kombiniert Stärken von Policy Gradient und Value-Based Methods.
Actor-Critic kombiniert Policy-Optimierung (Actor) mit Wertschätzung (Critic) – stabiler als reiner Policy Gradient, Basis von PPO und modernem RLHF.
Erklärung
Der Actor lernt die Policy, der Critic schätzt den Advantage (wie viel besser ist diese Aktion als der Durchschnitt). Dies reduziert die Varianz von reinen Policy-Gradient-Methoden erheblich.
Relevanz für Marketing
Actor-Critic ist die Basis von PPO und damit indirekt von RLHF – das Verständnis erklärt, warum LLM-Training funktioniert.
Häufige Fallstricke
Instabilität wenn Actor und Critic unterschiedlich schnell lernen. Bias durch ungenau geschätzten Critic. Hyperparameter-Sensitivität.
Entstehung & Geschichte
Konda & Tsitsiklis (1999) formalisierten Actor-Critic. A3C (Mnih et al., 2016) machte es skalierbar. PPO (2017) ist die populärste Actor-Critic-Variante. SAC (2018) für kontinuierliche Kontrolle.
Abgrenzung & Vergleiche
Actor-Critic vs. Pure Policy Gradient
Policy Gradient hat hohe Varianz (Monte-Carlo-Returns); Actor-Critic reduziert Varianz durch gelernte Baseline (Critic).
Actor-Critic vs. Q-Learning (DQN)
DQN lernt nur eine Wertefunktion; Actor-Critic lernt explizit eine Policy – besser für kontinuierliche Aktionsräume.