Membership Inference Attack
Ein Angriff, der bestimmt, ob ein bestimmter Datenpunkt im Training-Datensatz eines ML-Modells enthalten war.
Membership Inference Attacks bestimmen, ob bestimmte Daten zum Training eines Modells verwendet wurden – ein kritisches Datenschutzrisiko für DSGVO-Compliance.
Erklärung
Das Modell verhält sich bei Trainingsdaten anders (höhere Confidence, niedrigerer Loss). Angreifer trainieren ein "Shadow Model" und einen Classifier, der Members von Non-Members unterscheidet.
Relevanz für Marketing
Datenschutz-Risiko: Wenn nachweisbar ist, dass Patientendaten im Modell waren, verletzt das die DSGVO. Auch LLMs sind anfällig für Membership Inference.
Beispiel
Ein Angreifer fragt ein Health-AI-Modell zu spezifischen Patientenprofilen. Hohe Confidence-Scores verraten, welche Patienten im Training-Set waren.
Häufige Fallstricke
Schwer zu verhindern ohne Accuracy-Verlust. Differential Privacy hilft, aber mit Tradeoffs. Overfitting erhöht Anfälligkeit.
Entstehung & Geschichte
Shokri et al. (2017) formalisierten Membership Inference Attacks gegen ML-Modelle. Follow-up-Arbeiten zeigten Anfälligkeiten in LLMs, GANs und Diffusion Models. Carlini et al. (2021) demonstrierten Training Data Extraction aus GPT-2.
Abgrenzung & Vergleiche
Membership Inference Attack vs. Model Extraction
Model Extraction will das Modell klonen; Membership Inference will nur wissen, welche Daten im Training waren.
Membership Inference Attack vs. Data Poisoning
Data Poisoning manipuliert Trainingsdaten aktiv; Membership Inference ist ein passiver Informationsangriff.