Bandit-basierte Empfehlung
Empfehlungssysteme, die Multi-Armed Bandits nutzen, um Exploration neuer Items mit Exploitation bekannter Präferenzen zu balancieren.
Bandit-basierte Empfehlungen lernen online und balancieren Exploration neuer Items mit Exploitation bewährter – ideal für schnelle Feedback-Loops.
Erklärung
Contextual Bandits nutzen User-Kontext als Features und lernen online, welche Items für welche Nutzer-Kontexte optimal sind. Kein Batch-Retraining nötig – kontinuierliches Lernen.
Relevanz für Marketing
Ideal für Marketing-Personalisierung: Website-Banner, E-Mail-Betreffzeilen, Produktempfehlungen – alles mit schnellem Feedback-Loop.
Beispiel
Ein News-Feed nutzt LinUCB, um für jeden Nutzer-Kontext die optimale Mischung aus bekannten und neuen Artikeln zu finden.
Häufige Fallstricke
Delayed Rewards (z.B. Conversions nach Tagen) sind schwer zu handhaben. Reward-Signal-Design ist entscheidend.
Entstehung & Geschichte
Li et al. (2010) stellten LinUCB für personalisierte News-Empfehlungen vor. Yahoo und Microsoft setzten Bandits früh für Anzeigen-Auswahl ein. Contextual Bandits sind seit 2020 Standard für Online-Personalisierung.
Abgrenzung & Vergleiche
Bandit-basierte Empfehlung vs. A/B Testing
A/B Testing testet statisch wenige Varianten; Bandits optimieren kontinuierlich über viele Optionen.