BPE (Byte Pair Encoding)
Subword-Tokenisierungsalgorithmus, der häufige Zeichenpaare iterativ zusammenfasst, um ein optimales Vokabular zu erstellen.
BPE erstellt ein Subword-Vokabular durch iteratives Zusammenfassen häufiger Zeichenpaare – Basis für GPT-Tokenizer (tiktoken) und die meisten modernen LLMs.
Erklärung
BPE startet mit einzelnen Zeichen und merged iterativ die häufigsten Paare. "low", "lower", "lowest" teilen den Subword "low". GPT-Modelle nutzen BPE via tiktoken.
Relevanz für Marketing
BPE ist der Tokenizer-Standard für GPT-Modelle und die Grundlage für effiziente Text-Verarbeitung in LLMs.
Häufige Fallstricke
Vokabulargröße muss als Hyperparameter gewählt werden. Greedy-Merging findet nicht immer die optimale Zerlegung. Nicht alle Sprachen profitieren gleich.
Entstehung & Geschichte
BPE stammt ursprünglich aus der Datenkompression (Gage, 1994). Sennrich et al. adaptierten BPE 2016 für neurale maschinelle Übersetzung. OpenAI nutzte BPE für alle GPT-Modelle. tiktoken (2022) optimierte die BPE-Implementierung für Geschwindigkeit.
Abgrenzung & Vergleiche
BPE (Byte Pair Encoding) vs. WordPiece
BPE merged nach Häufigkeit; WordPiece maximiert die Likelihood des Trainingskorpus. BPE nutzt GPT, WordPiece nutzt BERT.
BPE (Byte Pair Encoding) vs. SentencePiece
SentencePiece ist ein Framework, das BPE oder Unigram als Algorithmus nutzen kann; BPE ist ein spezifischer Algorithmus.