Voice Activity Detection (VAD)
Voice Activity Detection erkennt automatisch, ob ein Audio-Signal menschliche Sprache enthält oder nicht – die Grundlage für effiziente Sprachverarbeitung.
VAD erkennt Sprache in Audio – unverzichtbar für effiziente ASR, Voice Agents und Echtzeit-Transkription.
Erklärung
VAD segmentiert Audio in Sprache/Nicht-Sprache-Abschnitte. Moderne VAD-Modelle wie Silero VAD nutzen neuronale Netze. VAD reduziert ASR-Kosten, verhindert Halluzinationen bei Stille und ermöglicht Turn-Taking.
Relevanz für Marketing
Essentiell für Voice Agents, Meeting-Transkription und Call-Center-Analyse. Ohne VAD verarbeitet ASR unnötige Stille und halluziniert.
Häufige Fallstricke
Empfindlich bei Hintergrundmusik. Flüstern oft nicht erkannt. Latenz-Tradeoff bei Echtzeit-Anwendungen.
Entstehung & Geschichte
Frühe VAD nutzte Energie-Schwellwerte (1970er). GMM-basierte VAD dominierte 2000er. WebRTC-VAD (Google) wurde weit verbreitet. Silero VAD (2021) brachte neuronale VAD als Open-Source-Standard.
Abgrenzung & Vergleiche
Voice Activity Detection (VAD) vs. Speaker Diarization
VAD erkennt OB Sprache vorhanden ist; Diarization erkennt WER spricht – VAD ist oft der erste Schritt.
Voice Activity Detection (VAD) vs. Noise Gate
Noise Gates filtern nach Lautstärke; VAD erkennt spezifisch menschliche Sprache, auch bei geringer Lautstärke.