Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Exploration vs. Exploitation

    Auch bekannt als:
    Exploration-Exploitation-Dilemma
    Erkundung vs. Ausnutzung
    Explore-Exploit Tradeoff
    Aktualisiert: 10.2.2026

    Das fundamentale RL-Dilemma: Soll der Agent bekannte gute Aktionen ausnutzen (Exploitation) oder neue Optionen erkunden (Exploration)?

    Kurz erklärt

    Exploration vs. Exploitation: Das fundamentale Dilemma zwischen Neues ausprobieren und Bewährtes nutzen – in RL, Marketing und Business.

    Erklärung

    Zu viel Exploration verschwendet Ressourcen auf suboptimale Aktionen. Zu viel Exploitation verpasst potenziell bessere Alternativen. Epsilon-Greedy, UCB und Thompson Sampling sind gängige Strategien.

    Relevanz für Marketing

    Das Exploration-Exploitation-Dilemma ist direkt relevant für Marketing: Wann teste ich neue Creatives vs. skaliere bewährte?

    Häufige Fallstricke

    Fixer Exploration-Rate (ε) nicht angepasst. Zu früh auf lokales Optimum festgelegt. Exploration-Kosten in High-Stakes-Szenarien unterschätzt.

    Entstehung & Geschichte

    Das Dilemma wurde 1952 von Robbins mathematisch formuliert. Thompson Sampling (1933) ist die älteste Lösung. UCB (Auer et al., 2002) lieferte Regret Bounds. Heute zentral in RL, Bandit-Algorithmen und personalisierten Systemen.

    Abgrenzung & Vergleiche

    Exploration vs. Exploitation vs. Epsilon-Greedy vs. UCB

    Epsilon-Greedy exploriert zufällig mit fixer Rate; UCB exploriert gezielt unsichere Optionen – UCB ist theoretisch besser, Epsilon-Greedy einfacher.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!