Question 1

Was ist Actor-Critic?

Accepted Answer

RL-Architektur mit zwei Komponenten: ein Actor (Policy) wählt Aktionen, ein Critic (Value Function) bewertet sie – kombiniert Stärken von Policy Gradient und Value-Based Methods. Der Actor lernt die Policy, der Critic schätzt den Advantage (wie viel besser ist diese Aktion als der Durchschnitt). Dies reduziert die Varianz von reinen Policy-Gradient-Methoden erheblich.

Question 2

Wie funktioniert Actor-Critic?

Accepted Answer

Der Actor lernt die Policy, der Critic schätzt den Advantage (wie viel besser ist diese Aktion als der Durchschnitt). Dies reduziert die Varianz von reinen Policy-Gradient-Methoden erheblich.

Question 3

Warum ist Actor-Critic wichtig für Marketing?

Accepted Answer

Actor-Critic ist die Basis von PPO und damit indirekt von RLHF – das Verständnis erklärt, warum LLM-Training funktioniert.

Question 4

Was sind häufige Fehler bei Actor-Critic?

Accepted Answer

Instabilität wenn Actor und Critic unterschiedlich schnell lernen. Bias durch ungenau geschätzten Critic. Hyperparameter-Sensitivität.

Question 5

Woher kommt Actor-Critic?

Accepted Answer

Konda & Tsitsiklis (1999) formalisierten Actor-Critic. A3C (Mnih et al., 2016) machte es skalierbar. PPO (2017) ist die populärste Actor-Critic-Variante. SAC (2018) für kontinuierliche Kontrolle.

Question 6

Was ist der Unterschied zwischen Actor-Critic und Policy Gradient?

Accepted Answer

Actor-Critic und Policy Gradient sind verwandte Konzepte im Bereich der KI und des Marketings. RL-Architektur mit zwei Komponenten: ein Actor (Policy) wählt Aktionen, ein Critic (Value Function) ...

Actor-Critic

Erklärung

Relevanz für Marketing

Häufige Fallstricke

Entstehung & Geschichte

Abgrenzung & Vergleiche

Actor-Critic vs. Pure Policy Gradient

Actor-Critic vs. Q-Learning (DQN)

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe