Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (Temporal Difference Learning (TD))

    Temporal Difference Learning

    Auch bekannt als:
    TD-Lernen
    Temporale Differenz
    TD(0)
    TD(λ)
    Aktualisiert: 10.2.2026

    TD-Learning aktualisiert Wertschätzungen basierend auf der Differenz zwischen aufeinanderfolgenden Vorhersagen – lernt aus unvollständigen Episoden durch Bootstrapping.

    Kurz erklärt

    TD-Learning lernt durch Bootstrapping: Werte werden schrittweise aus der Differenz zwischen Vorhersage und nächstem Schritt aktualisiert – Grundlage von Q-Learning und DQN.

    Erklärung

    Statt auf das Ende einer Episode zu warten (Monte Carlo), aktualisiert TD nach jedem Schritt: V(s) ← V(s) + α[r + γV(s') - V(s)]. Der Fehlerterm (TD-Error) treibt das Lernen.

    Relevanz für Marketing

    TD-Learning ist die mathematische Grundlage von Q-Learning und damit von DQN, das Atari meisterte – fundamentales RL-Konzept.

    Häufige Fallstricke

    Bootstrapping kann Fehler propagieren. Bias-Varianz-Tradeoff bei TD(λ). Konvergenz nur mit korrekter Learning Rate garantiert.

    Entstehung & Geschichte

    Sutton (1988) formalisierte TD-Learning. TD-Gammon (Tesauro, 1992) war ein früher Erfolg (Backgammon). TD-Methoden wurden zur Grundlage für Q-Learning (1989) und alle modernen Value-Based RL-Algorithmen.

    Abgrenzung & Vergleiche

    Temporal Difference Learning vs. Monte Carlo Methods

    Monte Carlo wartet auf Episode-Ende für exakte Returns; TD bootstrappt nach jedem Schritt – schnelleres Lernen, aber mehr Bias.

    Verwandte Services

    Verwandte Begriffe

    Q-LearningSARSAMonte Carlo MethodsReinforcement LearningValue Function
    👋Fragen? Chatte mit uns!