Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Thompson Sampling

    Auch bekannt als:
    Bayesian Bandit
    Posterior Sampling
    Probability Matching
    Aktualisiert: 11.2.2026

    Bayesianischer Bandit-Algorithmus, der Aktionen proportional zur Wahrscheinlichkeit wählt, dass sie optimal sind.

    Kurz erklärt

    Thompson Sampling wählt Optionen proportional zur Wahrscheinlichkeit, dass sie optimal sind – der eleganteste Bandit-Algorithmus, seit 1933 bekannt, aber erst seit 2010 populär.

    Erklärung

    Thompson Sampling unterhält eine Posterior-Verteilung über die Belohnung jeder Option. In jeder Runde sampelt es aus jeder Posterior und wählt die Option mit dem höchsten Sample. Natürlich balanciert es Exploration (unsichere Optionen) und Exploitation (bekannt gute Optionen).

    Relevanz für Marketing

    Optimal für Marketing-Optimierung: Ad Creative Selection, Headline Testing, Recommendation Ranking – effizienter als A/B Tests bei vielen Varianten.

    Häufige Fallstricke

    Prior-Wahl beeinflusst Ergebnisse. Delayed Rewards (z.B. Conversions Tage später) erfordern spezielle Anpassungen. Non-stationäre Umgebungen brauchen Decay.

    Entstehung & Geschichte

    William R. Thompson veröffentlichte den Algorithmus 1933 – einer der frühesten ML-Algorithmen überhaupt. Chapelle & Li (2011) zeigten seine Effizienz für Online-Werbung. Heute Standard bei Google, Netflix und Spotify für Personalisierung.

    Abgrenzung & Vergleiche

    Thompson Sampling vs. UCB (Upper Confidence Bound)

    UCB wählt deterministisch die Option mit höchstem oberen Konfidenzband; Thompson Sampling ist stochastisch (sampelt aus Posteriors).

    Thompson Sampling vs. Epsilon-Greedy

    Epsilon-Greedy exploriert zufällig mit fester Rate ε; Thompson Sampling exploriert intelligent proportional zur Unsicherheit.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!