Mel-Spektrogramm
Ein Mel-Spektrogramm ist eine visuelle Darstellung von Audio-Frequenzen auf der Mel-Skala – die Standard-Eingabe für moderne Speech- und Audio-KI-Modelle.
Mel-Spektrogramme wandeln Audio in 2D-Bilder auf der menschlichen Hörskala um – die universelle Eingabe für Speech-KI von Whisper bis TTS.
Erklärung
Audio wird per STFT in Frequenz-Bins zerlegt, dann auf die Mel-Skala (menschliches Gehör) projiziert und logarithmiert. Das Ergebnis ist ein 2D-"Bild", das von CNNs oder Transformern verarbeitet wird.
Relevanz für Marketing
Jedes moderne Audio-ML-System (Whisper, TTS, Music Generation) nutzt Mel-Spektrogramme als Zwischendarstellung.
Häufige Fallstricke
Informationsverlust bei Mel-Projektion (Phasen-Info geht verloren). Parameter (n_mels, hop_length) müssen zum Modell passen. Rückkonvertierung zu Audio braucht Vocoder.
Entstehung & Geschichte
Die Mel-Skala wurde 1937 von Stevens, Volkmann & Newman entwickelt. MFCCs dominierten Speech Recognition 1980-2015. Mel-Spektrogramme ersetzten MFCCs als Deep-Learning-Eingabe ab ~2016 (Tacotron, WaveNet).
Abgrenzung & Vergleiche
Mel-Spektrogramm vs. MFCC
MFCCs komprimieren Mel-Spektrogramme weiter via DCT; Deep-Learning-Modelle bevorzugen das vollständige Mel-Spektrogramm.
Mel-Spektrogramm vs. Raw Waveform
Raw Waveforms sind 1D-Signale; Mel-Spektrogramme sind 2D-Darstellungen, die Frequenzmuster sichtbar machen.