Detokenisierung
Der Prozess, Tokens zurück in lesbaren Text umzuwandeln – die Umkehrung der Tokenization.
Detokenization wandelt Token-Sequenzen zurück in lesbaren Text – entfernt Subword-Marker und rekonstruiert Whitespace korrekt.
Erklärung
Detokenization muss Leerzeichen, Interpunktion und Sonderzeichen korrekt rekonstruieren. Bei Subword-Tokenization werden "▁" (SentencePiece) oder "##" (WordPiece) Marker entfernt.
Relevanz für Marketing
Detokenization ist essentiell für die korrekte Darstellung von LLM-Outputs in Anwendungen.
Häufige Fallstricke
Whitespace-Rekonstruktion bei Subword-Tokens komplex. Sonderzeichen und Unicode können problematisch sein. Streaming-Detokenization bei Partial Tokens.
Entstehung & Geschichte
Detokenization war bei Wort-Level-Tokenization trivial. Subword-Tokenization (BPE, 2016) machte Detokenization komplexer. SentencePiece löste das Problem mit dem "▁"-Marker für Wortanfänge. Streaming-Detokenization wurde für Chat-Interfaces (ChatGPT, 2022) kritisch.
Abgrenzung & Vergleiche
Detokenisierung vs. Tokenization
Tokenization zerlegt Text in Tokens; Detokenization setzt Tokens zurück zu lesbarem Text – nicht immer verlustfrei möglich.