Model-Based Reinforcement Learning
Model-Based RL lernt ein Modell der Umgebung (Dynamics Model) und plant mit diesem Modell, statt nur aus direkter Erfahrung zu lernen.
Model-Based RL lernt ein Weltmodell und plant im Kopf – sample-effizienter als Model-Free, die Technik hinter MuZero und Dreamer.
Erklärung
Der Agent baut ein internes Weltmodell: "Wenn ich Aktion A im Zustand S nehme, was passiert?" Damit kann er mental simulieren und planen, ohne die echte Umgebung zu brauchen.
Relevanz für Marketing
Model-Based RL ist sample-effizienter als Model-Free und relevant für World Models in autonomem Fahren und Robotik.
Häufige Fallstricke
Model-Fehler akkumulieren über lange Horizonte. Compounding Errors. Schwer für hochdimensionale Umgebungen.
Entstehung & Geschichte
Dyna (Sutton, 1991) war ein frühes Framework. MuZero (DeepMind, 2019) lernte ein Modell und meisterte Spiele ohne die Regeln zu kennen. Dreamer (2020) für visuelles RL. World Models (Ha & Schmidhuber, 2018) waren einflussreich.
Abgrenzung & Vergleiche
Model-Based Reinforcement Learning vs. Model-Free RL (PPO, DQN)
Model-Free lernt direkt aus Erfahrung (mehr Samples nötig); Model-Based lernt ein Umgebungsmodell und simuliert – weniger Samples, aber Model-Fehler.