CTC (Connectionist Temporal Classification)
CTC ist ein Training-Algorithmus für Sequenz-zu-Sequenz-Probleme, bei denen Input und Output unterschiedliche Längen haben – der Schlüssel zu modernem ASR.
CTC trainiert ASR-Modelle ohne explizites Alignment – es summiert über alle möglichen Frame-zu-Text-Zuordnungen.
Erklärung
CTC summiert über alle möglichen Alignments zwischen Audio-Frames und Text-Zeichen. Ein Blank-Token erlaubt dem Modell, Frames ohne Output zu überspringen. Greedy oder Beam-Search-Decoding erzeugt den finalen Text.
Relevanz für Marketing
CTC ermöglicht End-to-End ASR ohne manuelle Alignment-Annotation. Wav2Vec 2.0 nutzt CTC als Fine-Tuning-Objektiv.
Häufige Fallstricke
CTC nimmt bedingte Unabhängigkeit der Outputs an (kein Sprachmodell). Peaky Distributions können Decoding erschweren.
Entstehung & Geschichte
Graves et al. (2006) erfanden CTC für Handschrifterkennung. DeepSpeech (Baidu, 2014) machte CTC zum Standard für ASR. Wav2Vec 2.0 (2020) nutzt CTC für Fine-Tuning.
Abgrenzung & Vergleiche
CTC (Connectionist Temporal Classification) vs. Attention-based ASR
CTC nutzt bedingte Unabhängigkeit (schnell, monoton); Attention-ASR lernt flexible Alignments (langsamer, mächtiger).
CTC (Connectionist Temporal Classification) vs. RNN-Transducer
CTC hat keine Label-Abhängigkeit; RNN-T modelliert Abhängigkeiten zwischen Outputs – ideal für Streaming ASR.