Model Extraction Attack
Ein Angriff, bei dem ein Gegner durch systematische API-Abfragen eine funktional äquivalente Kopie eines ML-Modells erstellt.
Model Extraction Attacks kopieren ML-Modelle durch systematische API-Abfragen – ein zunehmendes IP-Risiko für AI-as-a-Service.
Erklärung
Der Angreifer sendet crafted Inputs an die API und nutzt die Outputs zum Trainieren eines Surrogate-Modells. Decision-Based und Score-Based Angriffe existieren. Gegenmaßnahmen: Rate Limiting, Output Perturbation, Watermarking.
Relevanz für Marketing
Für API-basierte AI-Produkte (Chatbots, Classifier) ist Model Extraction ein IP-Risiko – Konkurrenten können Modelle kostengünstig kopieren.
Beispiel
Ein Wettbewerber nutzt 100.000 API-Calls an Ihren Sentiment-Classifier, um ein lokales Modell mit 95% Agreement zu trainieren – ohne eigene Trainingsdaten.
Häufige Fallstricke
Vollständiger Schutz ist unmöglich bei öffentlichen APIs. Rate Limiting allein reicht nicht. Watermarking kann durch Fine-Tuning entfernt werden.
Entstehung & Geschichte
Tramèr et al. (2016) zeigten Model Extraction gegen BigML und Amazon ML. Orekondy et al. (2019) demonstrierten Knockoff Nets. Krishna et al. (2020) extrahierten BERT-Modelle. Das Thema wächst mit LLM-APIs.
Abgrenzung & Vergleiche
Model Extraction Attack vs. Membership Inference
Membership Inference prüft, ob Daten im Training waren; Model Extraction klont das gesamte Modell.