Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (Mel Spectrogram)

    Mel-Spektrogramm

    Auch bekannt als:
    Mel-Spektrogramm
    Mel-Frequenzspektrum
    Log-Mel-Spektrogramm
    Aktualisiert: 10.2.2026

    Ein Mel-Spektrogramm ist eine visuelle Darstellung von Audio-Frequenzen auf der Mel-Skala – die Standard-Eingabe für moderne Speech- und Audio-KI-Modelle.

    Kurz erklärt

    Mel-Spektrogramme wandeln Audio in 2D-Bilder auf der menschlichen Hörskala um – die universelle Eingabe für Speech-KI von Whisper bis TTS.

    Erklärung

    Audio wird per STFT in Frequenz-Bins zerlegt, dann auf die Mel-Skala (menschliches Gehör) projiziert und logarithmiert. Das Ergebnis ist ein 2D-"Bild", das von CNNs oder Transformern verarbeitet wird.

    Relevanz für Marketing

    Jedes moderne Audio-ML-System (Whisper, TTS, Music Generation) nutzt Mel-Spektrogramme als Zwischendarstellung.

    Häufige Fallstricke

    Informationsverlust bei Mel-Projektion (Phasen-Info geht verloren). Parameter (n_mels, hop_length) müssen zum Modell passen. Rückkonvertierung zu Audio braucht Vocoder.

    Entstehung & Geschichte

    Die Mel-Skala wurde 1937 von Stevens, Volkmann & Newman entwickelt. MFCCs dominierten Speech Recognition 1980-2015. Mel-Spektrogramme ersetzten MFCCs als Deep-Learning-Eingabe ab ~2016 (Tacotron, WaveNet).

    Abgrenzung & Vergleiche

    Mel-Spektrogramm vs. MFCC

    MFCCs komprimieren Mel-Spektrogramme weiter via DCT; Deep-Learning-Modelle bevorzugen das vollständige Mel-Spektrogramm.

    Mel-Spektrogramm vs. Raw Waveform

    Raw Waveforms sind 1D-Signale; Mel-Spektrogramme sind 2D-Darstellungen, die Frequenzmuster sichtbar machen.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!