Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (SARSA (State-Action-Reward-State-Action))

    SARSA

    Auch bekannt als:
    SARSA
    On-Policy TD-Control
    State-Action-Reward-State-Action
    Aktualisiert: 10.2.2026

    SARSA ist ein on-policy RL-Algorithmus, der Q-Werte basierend auf der tatsächlich ausgeführten Aktion aktualisiert – im Gegensatz zu Q-Learnings off-policy Maximum.

    Kurz erklärt

    SARSA lernt Q-Werte on-policy – berücksichtigt die tatsächliche Exploration und ist dadurch sicherer als off-policy Q-Learning.

    Erklärung

    Update-Regel: Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)], wobei a' die tatsächlich gewählte nächste Aktion ist (nicht das Maximum). Name von der Quintupel-Sequenz (S,A,R,S',A').

    Relevanz für Marketing

    SARSA ist sicherer als Q-Learning in riskanten Umgebungen, da es das tatsächliche Verhalten (inkl. Exploration) berücksichtigt.

    Häufige Fallstricke

    Konvergiert zur Policy die es folgt (nicht zur optimalen). Kann zu konservativ sein. Exploration-Policy beeinflusst gelernte Q-Werte.

    Entstehung & Geschichte

    Rummery & Niranjan (1994) führten SARSA ein (ursprünglich "Modified Connectionist Q-Learning"). Sutton (1996) gab dem Algorithmus den Namen SARSA. Heute primär als Lehrmaterial und Baseline.

    Abgrenzung & Vergleiche

    SARSA vs. Q-Learning

    Q-Learning nutzt max Q(s',a') (off-policy, optimistischer); SARSA nutzt Q(s',a') der tatsächlichen Aktion (on-policy, konservativer/sicherer).

    Weiterführende Ressourcen

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!