Toxicity Detection
ML-Systeme, die toxische, beleidigende oder hasserfüllte Inhalte automatisch erkennen und klassifizieren.
Toxicity Detection klassifiziert Hate, Harassment, Violence etc. automatisch. Google Perspective API und OpenAI Moderation sind Standards. Kontext und Bias bleiben Herausforderungen.
Erklärung
Toxicity-Modelle klassifizieren Text in Kategorien: Hate, Harassment, Violence, Self-Harm, Sexual. Bekannte: Perspective API (Google), OpenAI Moderation. Herausforderungen: Kontext-Abhängigkeit, Ironie, kulturelle Unterschiede.
Relevanz für Marketing
Toxicity Detection schützt Brand Image: User-Generated Content filtern, Chatbot-Outputs prüfen, Community-Management automatisieren.
Beispiel
Perspective API gibt Toxicity-Scores für Kommentare: "Du bist dumm" → 0.85 (toxisch), "Ich stimme nicht zu" → 0.1 (okay).
Häufige Fallstricke
False Positives bei Zitaten oder Kontext. Bias gegen Minderheiten-Dialekte. Kann umgangen werden mit Leetspeak, Spacing.
Entstehung & Geschichte
Google's Perspective API (2017) war Pionier. Jigsaw-Projekte erforschten "Conversation AI". Mit LLMs wurde Toxicity Detection zur Pflicht für Content-Generierung.
Abgrenzung & Vergleiche
Toxicity Detection vs. Sentiment Analysis
Sentiment misst positiv/negativ; Toxicity erkennt spezifisch schädliche Inhalts-Kategorien.
Toxicity Detection vs. Content Filter
Toxicity Detection ist ein spezifischer Detector-Typ; Content Filter kann auch Topics, PII, Off-Brand etc. prüfen.