SentencePiece
Sprachunabhängiges Open-Source-Tokenizer-Framework von Google, das direkt auf Rohtext arbeitet ohne vorherige Wort-Segmentierung.
SentencePiece ist Googles sprachunabhängiges Tokenizer-Framework für mehrsprachige Modelle – arbeitet direkt auf Rohtext ohne Vorverarbeitung.
Erklärung
SentencePiece behandelt Text als Byte-Stream und benötigt keine vorherige Wortsegmentierung. Es unterstützt BPE und Unigram als Algorithmen. Ideal für Sprachen ohne klare Wortgrenzen (Japanisch, Chinesisch).
Relevanz für Marketing
SentencePiece ist der Tokenizer für Llama, T5, mBART und die meisten mehrsprachigen Modelle.
Häufige Fallstricke
Modell-Training und Tokenizer-Training müssen aufeinander abgestimmt sein. Whitespace-Handling unterscheidet sich von anderen Tokenizern.
Entstehung & Geschichte
Google veröffentlichte SentencePiece 2018 als Open-Source. Es löste das Problem der sprachabhängigen Vorverarbeitung. Meta nutzte SentencePiece für Llama-Modelle. Heute ist es der Standard-Tokenizer für mehrsprachige LLMs.
Abgrenzung & Vergleiche
SentencePiece vs. Hugging Face Tokenizers
SentencePiece ist ein standalone C++-Tool; HF Tokenizers ist eine Rust-Library mit mehr Flexibilität und Geschwindigkeit.
SentencePiece vs. tiktoken
tiktoken ist OpenAIs BPE-Implementierung für GPT; SentencePiece ist ein allgemeines Framework für BPE und Unigram.