Certified Defense
Verteidigungsmethoden gegen adversariale Angriffe, die mathematisch beweisbare Robustheitsgarantien bieten.
Certified Defenses bieten mathematisch beweisbare Garantien, dass ein Modell gegen Angriffe innerhalb eines definierten Perturbationsradius robust ist.
Erklärung
Certified Defenses nutzen Randomized Smoothing, Abstract Interpretation oder konvexe Relaxation, um zu beweisen, dass keine Perturbation innerhalb eines ε-Radius die Vorhersage ändern kann.
Relevanz für Marketing
Für sicherheitskritische AI-Anwendungen (Fraud Detection, Content-Moderation) bieten Certified Defenses formale Sicherheitsgarantien.
Beispiel
Ein Bildklassifikator beweist, dass kein ℓ₂-Perturbation mit ε<0.5 das Ergebnis von "sicher" auf "unsicher" ändern kann.
Häufige Fallstricke
Certified Defenses sind rechenintensiv und skalieren schlecht auf große Modelle. Garantien gelten nur für spezifische Perturbationstypen.
Entstehung & Geschichte
Cohen et al. (2019) etablierten Randomized Smoothing als skalierbare Certified Defense. Wong & Kolter (2018) zeigten konvex-relaxationsbasierte Ansätze. Das Feld hat sich bis 2025 auf LLM-Safety ausgeweitet.
Abgrenzung & Vergleiche
Certified Defense vs. Adversarial Training
Adversarial Training bietet empirische Robustheit (kann gebrochen werden); Certified Defenses bieten formale, mathematische Garantien.