Speech Enhancement
Speech Enhancement verbessert die Qualität von Sprachaufnahmen durch Entfernung von Rauschen, Hall und Störgeräuschen – oft als Vorverarbeitung für ASR.
Speech Enhancement entfernt Rauschen und Hall aus Audio per KI – verbessert ASR-Genauigkeit und Audio-Qualität in Echtzeit.
Erklärung
Neuronale Speech Enhancement (DTLN, FullSubNet, DeepFilterNet) lernt, saubere Sprache von Störsignalen zu trennen. Echtzeit-Modelle laufen auf CPU und verbessern Videocalls, Podcasts und ASR-Genauigkeit.
Relevanz für Marketing
Verbessert ASR-Accuracy um 10-30% bei verrauschtem Audio. Unverzichtbar für Call-Center-Analyse und Field-Recording.
Häufige Fallstricke
Aggressive Entrauschung kann Sprachdetails zerstören. Musikuntermalung wird oft fälschlich als Noise entfernt.
Entstehung & Geschichte
Spectral Subtraction (1979) war die erste Methode. Deep Learning ab 2014 (DNN-basiert). RNNoise (2018, Xiph.org) brachte Echtzeit-Entrauschung. DeepFilterNet (2022) und NVIDIA NeMo führen heute.
Abgrenzung & Vergleiche
Speech Enhancement vs. Source Separation
Speech Enhancement trennt Sprache von Rauschen; Source Separation trennt mehrere Quellen (Sprache, Musik, Effekte) voneinander.
Speech Enhancement vs. Noise Gate
Noise Gates stummschalten bei Stille; Speech Enhancement entfernt Rauschen auch während aktiver Sprache.