Adversarial Attacks
Gezielte Manipulationen von Inputs, die KI-Systeme zu Fehlklassifikationen oder falschem Verhalten bringen.
Adversarial Attacks manipulieren AI-Inputs gezielt, um Fehlverhalten zu erzwingen: unsichtbare Bildänderungen, Text-Tricks, Prompt-Manipulation. Grundlage der AI-Security-Forschung.
Erklärung
Bei Bildern: Unsichtbare Pixel-Änderungen täuschen Classifier. Bei Text: Typos, Unicode-Tricks, Synonyme. Bei LLMs: Prompt Injection, Jailbreaks. White-Box-Angriffe kennen das Modell, Black-Box nur Outputs.
Relevanz für Marketing
Marketing-AI ist angreifbar: Spam-Filter umgehen, Content-Moderation austricksen, Chatbots manipulieren. Adversarial Testing ist Pflicht vor Production.
Beispiel
Ein Image-Classifier erkennt ein "Stop"-Schild als "Speed Limit 80" nach Aufkleben eines kleinen Stickers – gefährlich für autonomes Fahren.
Häufige Fallstricke
Adversarial Robustness ist teuer zu trainieren. Neue Angriffe entstehen ständig. Robustheit kann Accuracy kosten.
Entstehung & Geschichte
Goodfellow et al. zeigten 2014 adversarial examples in Neural Networks. FGSM (Fast Gradient Sign Method) wurde Standard-Angriff. LLM-spezifische Angriffe wie Prompt Injection folgten 2022.
Abgrenzung & Vergleiche
Adversarial Attacks vs. Prompt Injection
Adversarial Attacks ist der Überbegriff; Prompt Injection ist eine spezifische Form für LLMs, die natürliche Sprache nutzt.
Adversarial Attacks vs. Data Poisoning
Adversarial Attacks manipulieren Inputs zur Inferenz-Zeit; Data Poisoning vergiftet Training-Daten vor dem Training.