Wav2Vec
Wav2Vec ist ein Self-Supervised-Learning-Framework von Meta für Speech Representations, das aus rohem Audio lernt und mit wenigen gelabelten Daten State-of-the-Art-ASR erreicht.
Wav2Vec lernt Speech-Representations self-supervised aus rohem Audio – ermöglicht ASR mit minimalem Labeling, ideal für seltene Sprachen.
Erklärung
Wav2Vec 2.0 maskiert Teile des Audio-Inputs und lernt Kontextvektoren über einen Contrastive-Loss. Anschließend wird mit CTC-Loss auf gelabelten Daten fein-getunt. 10 Minuten gelabeltes Audio reichen für brauchbare ASR.
Relevanz für Marketing
Demokratisiert ASR für Low-Resource-Sprachen: Unternehmen können Transkription für seltene Sprachen/Dialekte mit minimalem Labeling aufbauen.
Beispiel
Eine Firma trainiert Wav2Vec 2.0 auf 1000h ungelabeltem Audio in Schweizerdeutsch und fine-tuned mit nur 1h gelabelten Daten für Dialekt-ASR.
Häufige Fallstricke
Pre-Training braucht große GPU-Ressourcen. CTC-Decoding ohne Sprachmodell produziert Fehler. Weniger robust als Whisper bei Hintergrundgeräuschen.
Entstehung & Geschichte
Meta AI veröffentlichte Wav2Vec (2019) und Wav2Vec 2.0 (Baevski et al., 2020). Es zeigte erstmals, dass Self-Supervised Pre-Training für Audio so effektiv ist wie BERT für Text. HuBERT (2021) und data2vec folgten.
Abgrenzung & Vergleiche
Wav2Vec vs. Whisper
Wav2Vec ist self-supervised (wenig Labels nötig); Whisper ist supervised auf 680k Stunden gelabeltem Audio trainiert.
Wav2Vec vs. HuBERT
Beide sind self-supervised; HuBERT nutzt Offline-Clustering statt Contrastive Loss und erreicht oft leicht bessere Ergebnisse.