Unigram-Modell (Tokenization)
Subword-Tokenisierungsalgorithmus, der mit einem großen Vokabular startet und iterativ wenig nützliche Tokens entfernt.
Das Unigram-Modell tokenisiert top-down: Start mit großem Vokabular, iterative Entfernung – Standard in SentencePiece für T5, ALBERT und XLNet.
Erklärung
Im Gegensatz zu BPE (bottom-up) arbeitet Unigram top-down: Es startet mit vielen Kandidaten und entfernt Tokens, die den geringsten Verlust an Likelihood verursachen. SentencePiece nutzt Unigram als Standard-Algorithmus.
Relevanz für Marketing
Unigram ist der Default-Algorithmus in SentencePiece und wird von T5, ALBERT und XLNet verwendet.
Häufige Fallstricke
Weniger verbreitet als BPE. Initiales Vokabular muss sinnvoll gewählt werden. Probabilistisches Sampling kann nicht-deterministische Ergebnisse liefern.
Entstehung & Geschichte
Taku Kudo (Google) veröffentlichte das Unigram-Modell 2018 zusammen mit SentencePiece. Es bietet theoretisch fundiertere Tokenization als BPE durch Likelihood-Optimierung und probabilistisches Sampling (Subword Regularization).
Abgrenzung & Vergleiche
Unigram-Modell (Tokenization) vs. BPE
BPE baut bottom-up durch Merging häufiger Paare; Unigram entfernt top-down die am wenigsten nützlichen Tokens.
Unigram-Modell (Tokenization) vs. WordPiece
WordPiece merged nach Likelihood wie Unigram, arbeitet aber bottom-up; Unigram arbeitet top-down und unterstützt Subword Regularization.