Die Implementierung von Inkrementalitätstests ist der Sprung von der reinen Korrelationsbetrachtung zur kausalen Erfolgsmessung.
Inhaltsverzeichnis
- Einführung: Warum Testen Kausalität beweist
- Die zwei Hauptformen des Inkrementalitätstests
- User-Level-Tests (Conversion/Brand Lift)
- Geo-Split-Tests (Geo-Lifting)
- Schritt-für-Schritt: Das ideale Test-Setup
- 3.1 Die Hypothese formulieren
- 3.2 Die Wahl des Test-Designs
- 3.3 Die Stichprobengröße und Testdauer bestimmen (Signifikanz)
- Im Fokus: Der Geo-Split-Test in der Praxis
- 4.1 Die Erstellung des Geo-Paares (Matching)
- 4.2 Der Ablauf der Kampagnensteuerung
- 4.3 Die Auswertung: Berechnung des Inkrementalität-Lifts
- Tools und Technologien für den Start
- Fazit: Vom Schätzer zum Wissenden
1. Einführung: Warum Testen Kausalität beweist
Im Online-Marketing gilt: Korrelation ist nicht gleich Kausalität. Nur weil ein Kunde eine Anzeige gesehen und danach gekauft hat, bedeutet das nicht, dass die Anzeige den Kauf verursacht hat. Der Weg zur inkrementellen Steuerung führt daher über das wissenschaftliche Experiment: den Inkrementalitätstest.
Ein Inkrementalitätstest isoliert den Effekt einer Marketingmaßnahme, indem er eine Testgruppe (die die Maßnahme sieht) mit einer Kontrollgruppe (die sie nicht sieht) vergleicht. Der daraus resultierende Mehrwert im Umsatz oder der Conversion Rate ist der inkrementelle Lift – der klare Beweis für zusätzlichen Geschäftserfolg.
2. Die zwei Hauptformen des Inkrementalitätstests
Das Test-Design bestimmt, wie Sie die Kontrollgruppe definieren. Die zwei gängigsten Methoden sind:
User-Level-Tests (Conversion/Brand Lift)
Diese Tests werden direkt auf Werbeplattformen wie Meta, Google oder TikTok durchgeführt.
- Design: Die Plattform teilt die Zielgruppe in zwei zufällige Gruppen (z.B. 90 % vs. 10 %). Die Kontrollgruppe sieht keine oder eine irrelevante Anzeige.
- Vorteile: Hohe statistische Reinheit durch zufällige Zuweisung auf Nutzerebene (Randomization). Ideal, um die Wirkung einzelner Creatives, Zielgruppen oder Kampagnen zu messen.
- Einschränkungen: Funktioniert nur innerhalb der jeweiligen Plattform. Kann nicht den Cross-Channel-Effekt (z.B. Facebook auf Google Search) messen.
Geo-Split-Tests (Geo-Lifting)
Der Geo-Split-Test löst das Problem des kanalübergreifenden Messens und ist das Mittel der Wahl für strategische Entscheidungen über ganze Kanäle oder Budgets.
- Design: Es werden geografische Einheiten (Städte, Regionen, Postleitzahlen) in eine Testgruppe (mit erhöhter/neuer Werbeintensität) und eine Kontrollgruppe (mit unveränderter/reduzierter Intensität) aufgeteilt.
- Vorteile: Misst den wahren Gesamt-Lift über alle Kanäle hinweg (auch Offline-Effekte). Ideal, um den inkrementellen Wert eines gesamten Kanals (z.B. Programmatic Display) zu bestimmen.
- Einschränkungen: Die Erstellung der geografischen Paare ist komplexer, da externe Faktoren (Wettbewerb, Saisonalität) die Märkte beeinflussen können.
3. Schritt-für-Schritt: Das ideale Test-Setup
Unabhängig vom Design erfordert jeder Inkrementalitätstest ein sauberes Vorgehen.
3.1 Die Hypothese formulieren
Ein Test ohne klare Hypothese ist nutzlos. Die Hypothese ist eine Vorhersage über den zu erwartenden kausalen Effekt.
Beispiel-Hypothese:
„Die Investition von zusätzlichen 10.000 € in unseren YouTube-Kanal in der Testregion führt zu einem inkrementellen Umsatz-Lift von mindestens 5 % im Vergleich zur Kontrollregion in einem Zeitraum von vier Wochen.“
3.2 Die Wahl des Test-Designs
Während User-Level-Tests die beste Lösung für schnelle, taktische Optimierungen (Creative A vs. B) sind, werden für strategische Budget-Entscheidungen meist Geo-Split-Tests genutzt. Sie sind die einzige Methode, die den inkrementellen Beitrag eines gesamten Kanals oder einer Budgeterhöhung kanalübergreifend valide nachweisen kann.
3.3 Die Stichprobengröße und Testdauer bestimmen (Signifikanz)
Die größte Herausforderung ist die statistische Signifikanz. Ein Test muss lange genug laufen und genügend Daten sammeln, um Zufallseffekte auszuschließen.
- Dauer: Eine Faustregel ist eine Laufzeit von 3 bis 6 Wochen. Dies gewährleistet, dass der gesamte Conversion-Zyklus abgebildet wird und wochentags- oder wöchentliche Schwankungen berücksichtigt werden.
- Signifikanz: Sie wird meist mit $\mathbf{p < 0.05}$ (95 % statistische Sicherheit) angestrebt. Je kleiner der erwartete Lift ist, desto länger oder größer muss der Test sein.
- Wichtig: Messen Sie immer eine Baseline (Vortest-Phase) von gleicher Länge, um das normale Umsatzniveau der Regionen zu kalibrieren.
4. Im Fokus: Der Geo-Split-Test in der Praxis
Der Geo-Split-Test ist komplexer, liefert aber die strategisch wertvollsten Erkenntnisse.
4.1 Die Erstellung des Geo-Paares (Matching)
Die Regionen müssen so ähnlich wie möglich sein, um saubere Vergleiche zu ermöglichen. Dies ist der kritischste Schritt.
- Datenerfassung (Baseline): Sammeln Sie historische Daten (Umsatz, Traffic, organische Nachfrage) der letzten 3 bis 6 Monate für alle in Frage kommenden Regionen (z.B. alle Postleitzahlgebiete oder Bundesländer).
- Matching (Paarbildung): Verwenden Sie statistische Methoden (z.B. Time-Series-Matching oder Synthetische Kontrollmodelle), um Regionen zu paaren, die sich in der Vergangenheit sehr ähnlich entwickelt haben. Ein ideales Paar hat eine hohe Korrelation der Kennzahlen.
- Beispiel: Region A (Test) und Region B (Kontrolle) zeigten in den letzten Monaten eine Umsatzkorrelation von $\mathbf{r > 0.95}$.
- Zuweisung: Weisen Sie die Hälften des Paares der Test- bzw. Kontrollgruppe zu.
4.2 Der Ablauf der Kampagnensteuerung
Der Test läuft in der Regel über 4 bis 6 Wochen, nachdem die Baseline gemessen wurde.
| Gruppe | Aktion während der Testphase | Zweck |
| Testgruppe (A) | Volles Budget, ggf. erhöhtes Investment des zu testenden Kanals (z.B. +30 % Budget für Programmatic). | Messen des Zusatzumsatzes durch die Maßnahme. |
| Kontrollgruppe (B) | Unverändertes oder auf null reduziertes Investment im zu testenden Kanal. | Bildet den Basisumsatz (was wäre ohne die Maßnahme passiert). |
Wichtig: Alle anderen Marketingaktivitäten (Preise, Saisonalität, E-Mail-Marketing) müssen in beiden Regionen gleich bleiben, um die Variable zu isolieren.
4.3 Die Auswertung: Berechnung des Inkrementalität-Lifts
Nach Ende der Testphase wird der kausale Lift berechnet. Hierbei vergleicht man nicht nur die absoluten Umsätze, sondern die Abweichung von der erwarteten Performance (Baseline).
- Performance-Abweichung der Kontrollregion: Analysieren Sie, wie sich die Kontrollregion (B) im Vergleich zu ihrer eigenen Baseline entwickelt hat (z.B. $ +2 %$ natürliches Wachstum).
- Performance-Abweichung der Testregion: Analysieren Sie das tatsächliche Wachstum der Testregion (A) (z.B. $ +7 %$ Wachstum).
- Berechnung des Inkrementalität-Lifts: Man zieht das natürliche Wachstum der Kontrollregion (B) vom Gesamtwachstum der Testregion (A) ab.
$$\text{Inkrementeller Lift} = (\% \text{Wachstum Testregion}) – (\% \text{Wachstum Kontrollregion})$$
Beispielrechnung:
$\text{Inkrementeller Lift} = 7\% – 2\% = 5\%$
- Ergebnis: Die zusätzliche Budgetinvestition hat einen kausalen Umsatz-Lift von $5\%$ generiert.
- iROAS Berechnung: Mit diesem inkrementellen Umsatz kann nun der iROAS berechnet werden (siehe vorheriger Blogbeitrag), der die wahre Effizienz Ihrer Ausgaben zeigt.
5. Tools und Technologien für den Start
Da die statistische Auswertung komplex ist, empfiehlt sich die Nutzung spezialisierter Lösungen:
- Interne Plattform-Tools: Plattformen wie Meta bieten oft eigene Conversion-Lift- oder Brand-Lift-Studien an, die User-Level-Tests vereinfachen.
- Geo-Lifting-Tools: Spezialisierte MarTech-Lösungen und Data-Science-Agenturen verwenden fortgeschrittene statistische Methoden (z.B. Causal Impact Libraries von Google oder Synthetische Kontrolle), um das optimale Geo-Matching durchzuführen und die Signifikanz zu berechnen.
- BI-Integration: Die Rohdaten müssen idealerweise in einem Business-Intelligence-Tool (z.B. Tableau, Power BI) mit den historischen Unternehmensdaten zusammengeführt werden.
6. Fazit: Vom Schätzer zum Wissenden
Inkrementalitätstests sind kein einmaliges Projekt, sondern der Beginn einer datengetriebenen Testkultur. Sie ermöglichen es Ihnen, von der reinen Schätzung der Performance zur gesicherten Kausalität überzugehen. Der Aufwand ist höher, aber die Belohnung ist eine signifikant effizientere und strategisch fundiertere Budgetallokation.