Vocoder
Ein Vocoder konvertiert Mel-Spektrogramme oder andere akustische Features in hörbare Audio-Wellenformen – der letzte Schritt in TTS-Pipelines.
Vocoder wandeln Mel-Spektrogramme in hörbare Wellenformen um – HiFi-GAN und BigVGAN sind die Standards für natürliche Sprachsynthese.
Erklärung
Neuronale Vocoder (HiFi-GAN, WaveGlow, BigVGAN) erzeugen hochqualitatives Audio aus Mel-Spektrogrammen. Sie lernen die fehlende Phasen-Information zu rekonstruieren.
Relevanz für Marketing
Vocoder-Qualität bestimmt direkt die Natürlichkeit von TTS. HiFi-GAN ist der De-facto-Standard für Echtzeit-Synthese.
Häufige Fallstricke
Artefakte bei Out-of-Distribution-Input. Trainings-Daten müssen zum Mel-Spektrogramm-Format passen. GPU nötig für Echtzeit.
Entstehung & Geschichte
Der Vocoder wurde 1938 von Homer Dudley (Bell Labs) erfunden. WaveNet (DeepMind, 2016) startete neuronale Vocoder. WaveRNN (2018), HiFi-GAN (2020) und BigVGAN (2023) machten sie echtzeitfähig.
Abgrenzung & Vergleiche
Vocoder vs. WaveNet
WaveNet war der erste neuronale Vocoder (autoregressive, langsam); HiFi-GAN nutzt GANs für Echtzeit-Synthese.
Vocoder vs. Diffusion-based TTS
Diffusion-TTS (Grad-TTS) erzeugt Mel-Specs direkt; Vocoders konvertieren Mel-Specs→Audio als separater Schritt.