WordPiece
Von Google entwickelter Subword-Tokenisierungsalgorithmus, der die Likelihood des Trainingskorpus maximiert.
WordPiece ist Googles Subword-Tokenizer für BERT – maximiert die Trainingskorpus-Likelihood statt nur Häufigkeit wie BPE.
Erklärung
WordPiece wählt Merges, die die Gesamtwahrscheinlichkeit des Trainingskorpus maximieren. BERT nutzt WordPiece mit einem "##"-Prefix für Subword-Fortsetzungen.
Relevanz für Marketing
WordPiece ist der Tokenizer hinter BERT und vielen Google-NLP-Modellen.
Häufige Fallstricke
Das "##"-Prefix kann bei Textgenerierung verwirrend sein. Nicht so weit verbreitet wie BPE in modernen LLMs.
Entstehung & Geschichte
Google entwickelte WordPiece ursprünglich für japanische/koreanische Spracherkennung (Schuster & Nakajima, 2012). Es wurde für BERT (2018) adaptiert und zum Standard-Tokenizer für die BERT-Familie.
Abgrenzung & Vergleiche
WordPiece vs. BPE
BPE merged nach Häufigkeit; WordPiece nach Likelihood-Maximierung. BPE dominiert bei GPT, WordPiece bei BERT.
WordPiece vs. Unigram
Unigram startet mit großem Vokabular und entfernt Tokens; WordPiece baut von unten auf. Unigram wird in SentencePiece verwendet.