Exploration vs. Exploitation
Das fundamentale RL-Dilemma: Soll der Agent bekannte gute Aktionen ausnutzen (Exploitation) oder neue Optionen erkunden (Exploration)?
Exploration vs. Exploitation: Das fundamentale Dilemma zwischen Neues ausprobieren und Bewährtes nutzen – in RL, Marketing und Business.
Erklärung
Zu viel Exploration verschwendet Ressourcen auf suboptimale Aktionen. Zu viel Exploitation verpasst potenziell bessere Alternativen. Epsilon-Greedy, UCB und Thompson Sampling sind gängige Strategien.
Relevanz für Marketing
Das Exploration-Exploitation-Dilemma ist direkt relevant für Marketing: Wann teste ich neue Creatives vs. skaliere bewährte?
Häufige Fallstricke
Fixer Exploration-Rate (ε) nicht angepasst. Zu früh auf lokales Optimum festgelegt. Exploration-Kosten in High-Stakes-Szenarien unterschätzt.
Entstehung & Geschichte
Das Dilemma wurde 1952 von Robbins mathematisch formuliert. Thompson Sampling (1933) ist die älteste Lösung. UCB (Auer et al., 2002) lieferte Regret Bounds. Heute zentral in RL, Bandit-Algorithmen und personalisierten Systemen.
Abgrenzung & Vergleiche
Exploration vs. Exploitation vs. Epsilon-Greedy vs. UCB
Epsilon-Greedy exploriert zufällig mit fixer Rate; UCB exploriert gezielt unsichere Optionen – UCB ist theoretisch besser, Epsilon-Greedy einfacher.