Data Poisoning
Ein Angriff, bei dem manipulierte Daten in den Trainingsprozess eingeschleust werden, um das Modellverhalten gezielt zu beeinflussen.
Data Poisoning manipuliert Trainingsdaten, um Modellverhalten zu korrumpieren – besonders gefährlich für web-basiertes Training und LLMs.
Erklärung
Poisoning kann als Availability Attack (Gesamtperformance verschlechtern) oder Integrity Attack (Backdoor für spezifische Trigger) umgesetzt werden. Web-Scraping-basiertes Training ist besonders anfällig.
Relevanz für Marketing
LLMs und Foundation Models, die auf Internet-Daten trainiert werden, sind anfällig. Marketing-AI auf User-Generated Content kann vergiftet werden.
Beispiel
Angreifer platzieren manipulierte Reviews auf einer Plattform. Das Sentiment-Modell lernt falsche Assoziationen und bewertet bestimmte Produkte systematisch falsch.
Häufige Fallstricke
Schwer zu erkennen in großen Datasets. Data-Curation allein reicht nicht. Certification gegen Poisoning ist rechenintensiv.
Entstehung & Geschichte
Biggio et al. (2012) formalisierten Poisoning Attacks. Gu et al. (2017) zeigten Backdoor Attacks (BadNets). Carlini & Terzis (2022) demonstrierten Web-Poisoning gegen Foundation Models. LLM-Poisoning ist aktive Forschung.
Abgrenzung & Vergleiche
Data Poisoning vs. Adversarial Attacks
Adversarial Attacks manipulieren Inputs zur Inferenz-Zeit; Data Poisoning manipuliert Trainingsdaten vor dem Training.
Data Poisoning vs. Model Extraction
Model Extraction stiehlt das Modell; Data Poisoning korrumpiert das Modell von innen.