Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Vocoder

    Auch bekannt als:
    Vocoder
    Neural Vocoder
    Sprachsynthesizer
    Aktualisiert: 10.2.2026

    Ein Vocoder konvertiert Mel-Spektrogramme oder andere akustische Features in hörbare Audio-Wellenformen – der letzte Schritt in TTS-Pipelines.

    Kurz erklärt

    Vocoder wandeln Mel-Spektrogramme in hörbare Wellenformen um – HiFi-GAN und BigVGAN sind die Standards für natürliche Sprachsynthese.

    Erklärung

    Neuronale Vocoder (HiFi-GAN, WaveGlow, BigVGAN) erzeugen hochqualitatives Audio aus Mel-Spektrogrammen. Sie lernen die fehlende Phasen-Information zu rekonstruieren.

    Relevanz für Marketing

    Vocoder-Qualität bestimmt direkt die Natürlichkeit von TTS. HiFi-GAN ist der De-facto-Standard für Echtzeit-Synthese.

    Häufige Fallstricke

    Artefakte bei Out-of-Distribution-Input. Trainings-Daten müssen zum Mel-Spektrogramm-Format passen. GPU nötig für Echtzeit.

    Entstehung & Geschichte

    Der Vocoder wurde 1938 von Homer Dudley (Bell Labs) erfunden. WaveNet (DeepMind, 2016) startete neuronale Vocoder. WaveRNN (2018), HiFi-GAN (2020) und BigVGAN (2023) machten sie echtzeitfähig.

    Abgrenzung & Vergleiche

    Vocoder vs. WaveNet

    WaveNet war der erste neuronale Vocoder (autoregressive, langsam); HiFi-GAN nutzt GANs für Echtzeit-Synthese.

    Vocoder vs. Diffusion-based TTS

    Diffusion-TTS (Grad-TTS) erzeugt Mel-Specs direkt; Vocoders konvertieren Mel-Specs→Audio als separater Schritt.

    Weiterführende Ressourcen

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!