Temporal Difference Learning
TD-Learning aktualisiert Wertschätzungen basierend auf der Differenz zwischen aufeinanderfolgenden Vorhersagen – lernt aus unvollständigen Episoden durch Bootstrapping.
TD-Learning lernt durch Bootstrapping: Werte werden schrittweise aus der Differenz zwischen Vorhersage und nächstem Schritt aktualisiert – Grundlage von Q-Learning und DQN.
Erklärung
Statt auf das Ende einer Episode zu warten (Monte Carlo), aktualisiert TD nach jedem Schritt: V(s) ← V(s) + α[r + γV(s') - V(s)]. Der Fehlerterm (TD-Error) treibt das Lernen.
Relevanz für Marketing
TD-Learning ist die mathematische Grundlage von Q-Learning und damit von DQN, das Atari meisterte – fundamentales RL-Konzept.
Häufige Fallstricke
Bootstrapping kann Fehler propagieren. Bias-Varianz-Tradeoff bei TD(λ). Konvergenz nur mit korrekter Learning Rate garantiert.
Entstehung & Geschichte
Sutton (1988) formalisierte TD-Learning. TD-Gammon (Tesauro, 1992) war ein früher Erfolg (Backgammon). TD-Methoden wurden zur Grundlage für Q-Learning (1989) und alle modernen Value-Based RL-Algorithmen.
Abgrenzung & Vergleiche
Temporal Difference Learning vs. Monte Carlo Methods
Monte Carlo wartet auf Episode-Ende für exakte Returns; TD bootstrappt nach jedem Schritt – schnelleres Lernen, aber mehr Bias.