Question 1

Was ist SARSA?

Accepted Answer

SARSA ist ein on-policy RL-Algorithmus, der Q-Werte basierend auf der tatsächlich ausgeführten Aktion aktualisiert – im Gegensatz zu Q-Learnings off-policy Maximum. Update-Regel: Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)], wobei a' die tatsächlich gewählte nächste Aktion ist (nicht das Maximum). Name von der Quintupel-Sequenz (S,A,R,S',A').

Question 2

Wie funktioniert SARSA?

Accepted Answer

Update-Regel: Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)], wobei a' die tatsächlich gewählte nächste Aktion ist (nicht das Maximum). Name von der Quintupel-Sequenz (S,A,R,S',A').

Question 3

Warum ist SARSA wichtig für Marketing?

Accepted Answer

SARSA ist sicherer als Q-Learning in riskanten Umgebungen, da es das tatsächliche Verhalten (inkl. Exploration) berücksichtigt.

Question 4

Was sind häufige Fehler bei SARSA?

Accepted Answer

Konvergiert zur Policy die es folgt (nicht zur optimalen). Kann zu konservativ sein. Exploration-Policy beeinflusst gelernte Q-Werte.

Question 5

Woher kommt SARSA?

Accepted Answer

Rummery & Niranjan (1994) führten SARSA ein (ursprünglich "Modified Connectionist Q-Learning"). Sutton (1996) gab dem Algorithmus den Namen SARSA. Heute primär als Lehrmaterial und Baseline.

Question 6

Was ist der Unterschied zwischen SARSA und Q-Learning?

Accepted Answer

SARSA und Q-Learning sind verwandte Konzepte im Bereich der KI und des Marketings. SARSA ist ein on-policy RL-Algorithmus, der Q-Werte basierend auf der tatsächlich ausgeführten Aktio...

SARSA

Erklärung

Relevanz für Marketing

Häufige Fallstricke

Entstehung & Geschichte

Abgrenzung & Vergleiche

SARSA vs. Q-Learning

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe