Emotion Recognition
Emotion Recognition erkennt emotionale Zustände (Freude, Wut, Trauer) aus Sprache, Gesichtsausdrücken oder Text – mit Fokus auf Audio-basierte Analyse.
Emotion Recognition erkennt Gefühle aus Sprache und Stimme – für empathische Voice Agents, Call-Center-Analyse und UX-Feedback.
Erklärung
Speech Emotion Recognition (SER) analysiert Prosodie (Tonhöhe, Tempo, Lautstärke), Stimmqualität und linguistische Features. Modelle wie HuBERT-basierte SER erreichen hohe Genauigkeit auf Benchmarks.
Relevanz für Marketing
Call-Center-Analyse (Kundenzufriedenheit erkennen), UX-Research, Voice Agents mit Empathie und Marketing-Feedback-Analyse.
Häufige Fallstricke
Kulturelle Unterschiede in Emotionsausdruck. Datenschutz-Bedenken bei Mitarbeiter-Überwachung. Emotionen sind subjektiv und kontextabhängig.
Entstehung & Geschichte
Picard (1997) gründete Affective Computing am MIT. Frühe SER nutzte handcrafted Features (2000er). Deep Learning (2015+) und Pre-Trained Models (HuBERT, 2021+) brachten den Durchbruch.
Abgrenzung & Vergleiche
Emotion Recognition vs. Sentiment Analysis
Sentiment Analysis arbeitet auf Text (positiv/negativ); Emotion Recognition arbeitet auf Audio/Video und erkennt spezifische Emotionen.
Emotion Recognition vs. Speaker Diarization
Diarization erkennt WER spricht; Emotion Recognition erkennt WIE (emotional) gesprochen wird.