SARSA
SARSA ist ein on-policy RL-Algorithmus, der Q-Werte basierend auf der tatsächlich ausgeführten Aktion aktualisiert – im Gegensatz zu Q-Learnings off-policy Maximum.
SARSA lernt Q-Werte on-policy – berücksichtigt die tatsächliche Exploration und ist dadurch sicherer als off-policy Q-Learning.
Erklärung
Update-Regel: Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)], wobei a' die tatsächlich gewählte nächste Aktion ist (nicht das Maximum). Name von der Quintupel-Sequenz (S,A,R,S',A').
Relevanz für Marketing
SARSA ist sicherer als Q-Learning in riskanten Umgebungen, da es das tatsächliche Verhalten (inkl. Exploration) berücksichtigt.
Häufige Fallstricke
Konvergiert zur Policy die es folgt (nicht zur optimalen). Kann zu konservativ sein. Exploration-Policy beeinflusst gelernte Q-Werte.
Entstehung & Geschichte
Rummery & Niranjan (1994) führten SARSA ein (ursprünglich "Modified Connectionist Q-Learning"). Sutton (1996) gab dem Algorithmus den Namen SARSA. Heute primär als Lehrmaterial und Baseline.
Abgrenzung & Vergleiche
SARSA vs. Q-Learning
Q-Learning nutzt max Q(s',a') (off-policy, optimistischer); SARSA nutzt Q(s',a') der tatsächlichen Aktion (on-policy, konservativer/sicherer).