Was ist Incrementality Testing?

Incrementality Testing ist eine experimentelle Methode, die den kausalen Lift-Effekt von Werbung misst. Im Gegensatz zu MMM oder MTA, die Korrelationen modellieren, vergleichen Inkrementalitäts-Tests reale Welten mit und ohne Werbung – methodisch näher an einem klinischen RCT.

Was ist ein Geo-Holdout-Test?

Ein Geo-Holdout pausiert Werbung in ausgewählten geografischen Märkten (Test-Geos) und vergleicht den Outcome mit ähnlichen Märkten, in denen Werbung weiterläuft (Kontroll-Geos). Die Differenz ergibt den kausalen Werbe-Lift. Typische Test-Dauer: 4–6 Wochen.

Wie hilft KI bei Incrementality Testing?

KI automatisiert das Match-Markt-Pairing (welche Geos sind statistisch am ähnlichsten?), die Power-Analyse, die Synthetic-Control-Konstruktion via Bayesian Structural Time Series und die Auswertung mit Konfidenzintervallen. Tests, die früher 3 Wochen Setup brauchten, laufen 2026 in 2 Tagen.

Was kostet ein Incrementality-Test?

Direkte Setup-Kosten 5–15 k€ pro Test, plus 20–50 k€ Mediakosten-Differenz durch den Spend-Cut in den Test-Märkten. Pro Quartal sind 2–3 parallele Tests sinnvoll. Bei einem 5 Mio. € Mediabudget identifiziert dieses Setup typischerweise 500 k€–1 Mio. € reallokierbares Budget pro Jahr.

Welche Kanäle sind typische Inkrementalitäts-Verlierer?

Empirisch zeigen Brand-Search (25–60 % weniger inkrementell als MTA suggeriert) und Display-Retargeting (oft unter 40 % Inkrementalität) die größten Diskrepanzen. TV wird umgekehrt von MTA häufig unterschätzt. Genau diese Verzerrungen rechtfertigen quartalsweise Test-Programme.

Was sind die häufigsten Fehler bei Geo-Tests?

Spillover (Test-Geo sieht Werbung aus benachbartem Kontroll-Geo), zu kurze Test-Dauer ohne Carryover-Beobachtung, externe Schocks (Wettbewerber-Promo, Wetter), zu kleine Spend-Differenz (< 30 %) und fehlende Pre-Registration der Hypothese. Jeder Fehler kann den Test wertlos machen.

Incrementality Testing 2026: Geo-Holdouts, Conversion Lift und KI-gestützte Designs

Zurück zum Blog

Inhaltsverzeichnis

Incrementality Testing 2026: Geo-Holdouts und KI-gestützte Experimente

Incrementality Testing ist die einzige Measurement-Methode, die kausale Aussagen erlaubt: "Hätte dieser Umsatz auch ohne unsere Werbung stattgefunden?" Während MMM und MTA Korrelationen modellieren, liefern Inkrementalitäts-Tests den Goldstandard – und 2026 macht KI das Setup so einfach wie nie.

Dieser Beitrag ist Teil der Measurement & Attribution Hub-Serie und zeigt, wie Geo-Holdouts und KI-gestützte Experimente in der Praxis funktionieren.

TL;DR

Incrementality-Tests messen kausale Lift-Effekte – nicht Korrelationen

Geo-Holdouts (TBR, GeoLift, CausalImpact) sind 2026 der pragmatischste Ansatz

KI hilft beim Match-Markt-Pairing, der Synthetic-Control-Konstruktion und der Auswertung

Mindest-Investition: 2–6 Wochen Test-Dauer, 15–30 % Spend-Reduktion in Test-Märkten

Quartalsweise Inkrementalitäts-Tests sind der CFO-Beweis für Mediabudget-Allokation

Warum Inkrementalität die Wahrheit liefert

MMM und MTA sind statistische Modelle. Sie liefern Schätzungen unter Annahmen. Inkrementalitäts-Tests sind Experimente – sie schaffen einen Vergleich zwischen einer Welt mit und einer Welt ohne Werbung. Das ist methodisch näher an einem klinischen RCT als an einer Regressionsanalyse.

Beispiel: Ein Brand-Search-Kanal sieht in MTA wie ein Top-Performer aus (viele Last-Clicks). Ein Geo-Holdout zeigt, dass 70 % dieser Conversions auch ohne Brand-Search stattgefunden hätten – die "wahre" Inkrementalität liegt bei 30 %. Genau diese Erkenntnisse retten 6-stellige Budgets pro Quartal.

Die wichtigsten Test-Designs 2026

Design	Funktionsweise	Wann sinnvoll
Geo-Holdout	Werbung in Test-Geos pausiert, Vergleich mit Kontroll-Geos	National-TV, Out-of-Home, geo-targetbare Digital-Channels
Synthetic Control	KI baut Kontroll-Markt aus mehreren ähnlichen Geos	Wenn keine sauberen Kontroll-Geos verfügbar sind
Conversion Lift Study	Plattform-nativ in Meta/Google: zufällige User-Holdouts	Walled-Garden-Channels mit hoher Reichweite
Switchback	Test/Kontrolle wechseln zeitlich (z. B. wochenweise)	Marketplaces, Liefer-Apps mit hoher Frequenz

Wie KI das Setup verändert

Bis 2024 war Geo-Test-Design eine Spezialisten-Aufgabe: Welche Geos matchen statistisch? Welche Test-Dauer? Welcher Spend-Cut? 2026 übernehmen das KI-Tools wie GeoLift, Google's TBR und kommerzielle Lösungen wie Haus.io und Measured.

Konkret automatisiert KI:

Match-Markt-Pairing: Welche zwei Geos sind statistisch am ähnlichsten?
Power-Analyse: Wie viele Geos und Wochen brauche ich für einen statistisch signifikanten Lift?
Synthetic-Control-Konstruktion: Bayesian Structural Time Series für realistische Kontroll-Märkte
Auswertung: Confidence-Intervalle, p-Werte, ROAS-Implikationen pro Channel

Ein Geo-Test, der 2022 noch 3 Wochen Setup brauchte, läuft 2026 in 2 Tagen. Das verändert die Kadenz radikal: Statt 1–2 Tests pro Jahr sind 4–8 Tests pro Quartal realistisch.

Schritt-für-Schritt: Ein Geo-Holdout in der Praxis

Hypothese definieren: "Brand-Search trägt 30 % weniger inkrementell bei als MTA suggeriert."
Test- und Kontroll-Geos auswählen (KI-Pairing oder manuell)
Power-Analyse: Mindestens 4 Wochen Test-Dauer, 20 % Spend-Cut, n=12 Geo-Paare
Test ausrollen: Spend in Test-Geos um 100 % auf 0 reduzieren
Daily Monitoring: Anomalien, Spillover-Effekte, externe Schocks
Auswertung: Lift % mit 95 % Konfidenzintervall
Entscheidung: Reallokation des Budgets bei klarem Befund

Diese Pipeline ist Teil unseres AI Dashboards Produkts, das die Kontroll-Metriken automatisiert.

Typische Stolperfallen

Spillover: Test-Geo sieht Werbung aus benachbartem Kontroll-Geo (TV, OOH).
Zu kurze Test-Dauer: Werbe-Effekte haben Carryover. Mindestens 4 Wochen Test + 2 Wochen Carryover-Beobachtung.
Externe Schocks: Wettbewerber-Promo, Wetter, News-Events können den Test wertlos machen.
Zu kleine Spend-Differenz: < 30 % Spend-Cut produziert oft kein erkennbares Signal.
Tests ohne Pre-Registration: Wer nach dem Test die Hypothese ändert, betrügt sich selbst.

Was Inkrementalitäts-Tests typischerweise zeigen

Empirische Erkenntnisse aus DACH-Tests in den letzten 24 Monaten:

Brand-Search: 25–60 % weniger inkrementell als MTA suggeriert
Display-Retargeting: oft sub-40 % Inkrementalität
YouTube-Brand: stark schwankend, 30–80 % Inkrementalität je nach Creative
TV in Performance-Setups: regelmäßig stark unterschätzt durch MTA

Diese Insights speisen direkt zurück in MMM-Re-Calibration und Marketing Health Monitoring.

Was das kostet – und was es einspart

Direkte Kosten pro Test: 5–15 k€ Setup-Aufwand + 20–50 k€ Mediakosten-Differenz (durch Test-Geo-Spend-Cut). Pro Quartal lohnen sich 2–3 Tests parallel.

Realistischer Outcome: Identifikation von 10–20 % nicht-inkrementellem Spend pro Jahr → bei 5 Mio. € Mediabudget entspricht das 500 k€–1 Mio. € reallokierbarem Budget.

Fazit

Incrementality Testing ist 2026 keine Spezial-Disziplin mehr, sondern eine Pflicht-Schicht im Measurement-Stack. KI-gestützte Geo-Tests machen die Methode skalierbar, schnell und CFO-tauglich. Wer MMM oder MTA ohne Inkrementalitäts-Validierung nutzt, optimiert auf Korrelationen – und bezahlt das mit verbranntem Mediabudget. Wir helfen, diese Test-Kultur aufzubauen – sprecht uns an.

Incrementality Geo Holdouts Conversion Lift Experiments Best Practice Measurement