Thompson Sampling
Bayesianischer Bandit-Algorithmus, der Aktionen proportional zur Wahrscheinlichkeit wählt, dass sie optimal sind.
Thompson Sampling wählt Optionen proportional zur Wahrscheinlichkeit, dass sie optimal sind – der eleganteste Bandit-Algorithmus, seit 1933 bekannt, aber erst seit 2010 populär.
Erklärung
Thompson Sampling unterhält eine Posterior-Verteilung über die Belohnung jeder Option. In jeder Runde sampelt es aus jeder Posterior und wählt die Option mit dem höchsten Sample. Natürlich balanciert es Exploration (unsichere Optionen) und Exploitation (bekannt gute Optionen).
Relevanz für Marketing
Optimal für Marketing-Optimierung: Ad Creative Selection, Headline Testing, Recommendation Ranking – effizienter als A/B Tests bei vielen Varianten.
Häufige Fallstricke
Prior-Wahl beeinflusst Ergebnisse. Delayed Rewards (z.B. Conversions Tage später) erfordern spezielle Anpassungen. Non-stationäre Umgebungen brauchen Decay.
Entstehung & Geschichte
William R. Thompson veröffentlichte den Algorithmus 1933 – einer der frühesten ML-Algorithmen überhaupt. Chapelle & Li (2011) zeigten seine Effizienz für Online-Werbung. Heute Standard bei Google, Netflix und Spotify für Personalisierung.
Abgrenzung & Vergleiche
Thompson Sampling vs. UCB (Upper Confidence Bound)
UCB wählt deterministisch die Option mit höchstem oberen Konfidenzband; Thompson Sampling ist stochastisch (sampelt aus Posteriors).
Thompson Sampling vs. Epsilon-Greedy
Epsilon-Greedy exploriert zufällig mit fester Rate ε; Thompson Sampling exploriert intelligent proportional zur Unsicherheit.