Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Wav2Vec

    Auch bekannt als:
    Wav2Vec 2.0
    Self-Supervised Speech
    Facebook Speech Model
    Aktualisiert: 10.2.2026

    Wav2Vec ist ein Self-Supervised-Learning-Framework von Meta für Speech Representations, das aus rohem Audio lernt und mit wenigen gelabelten Daten State-of-the-Art-ASR erreicht.

    Kurz erklärt

    Wav2Vec lernt Speech-Representations self-supervised aus rohem Audio – ermöglicht ASR mit minimalem Labeling, ideal für seltene Sprachen.

    Erklärung

    Wav2Vec 2.0 maskiert Teile des Audio-Inputs und lernt Kontextvektoren über einen Contrastive-Loss. Anschließend wird mit CTC-Loss auf gelabelten Daten fein-getunt. 10 Minuten gelabeltes Audio reichen für brauchbare ASR.

    Relevanz für Marketing

    Demokratisiert ASR für Low-Resource-Sprachen: Unternehmen können Transkription für seltene Sprachen/Dialekte mit minimalem Labeling aufbauen.

    Beispiel

    Eine Firma trainiert Wav2Vec 2.0 auf 1000h ungelabeltem Audio in Schweizerdeutsch und fine-tuned mit nur 1h gelabelten Daten für Dialekt-ASR.

    Häufige Fallstricke

    Pre-Training braucht große GPU-Ressourcen. CTC-Decoding ohne Sprachmodell produziert Fehler. Weniger robust als Whisper bei Hintergrundgeräuschen.

    Entstehung & Geschichte

    Meta AI veröffentlichte Wav2Vec (2019) und Wav2Vec 2.0 (Baevski et al., 2020). Es zeigte erstmals, dass Self-Supervised Pre-Training für Audio so effektiv ist wie BERT für Text. HuBERT (2021) und data2vec folgten.

    Abgrenzung & Vergleiche

    Wav2Vec vs. Whisper

    Wav2Vec ist self-supervised (wenig Labels nötig); Whisper ist supervised auf 680k Stunden gelabeltem Audio trainiert.

    Wav2Vec vs. HuBERT

    Beide sind self-supervised; HuBERT nutzt Offline-Clustering statt Contrastive Loss und erreicht oft leicht bessere Ergebnisse.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!