Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    WordPiece

    Aktualisiert: 10.2.2026

    Von Google entwickelter Subword-Tokenisierungsalgorithmus, der die Likelihood des Trainingskorpus maximiert.

    Kurz erklärt

    WordPiece ist Googles Subword-Tokenizer für BERT – maximiert die Trainingskorpus-Likelihood statt nur Häufigkeit wie BPE.

    Erklärung

    WordPiece wählt Merges, die die Gesamtwahrscheinlichkeit des Trainingskorpus maximieren. BERT nutzt WordPiece mit einem "##"-Prefix für Subword-Fortsetzungen.

    Relevanz für Marketing

    WordPiece ist der Tokenizer hinter BERT und vielen Google-NLP-Modellen.

    Häufige Fallstricke

    Das "##"-Prefix kann bei Textgenerierung verwirrend sein. Nicht so weit verbreitet wie BPE in modernen LLMs.

    Entstehung & Geschichte

    Google entwickelte WordPiece ursprünglich für japanische/koreanische Spracherkennung (Schuster & Nakajima, 2012). Es wurde für BERT (2018) adaptiert und zum Standard-Tokenizer für die BERT-Familie.

    Abgrenzung & Vergleiche

    WordPiece vs. BPE

    BPE merged nach Häufigkeit; WordPiece nach Likelihood-Maximierung. BPE dominiert bei GPT, WordPiece bei BERT.

    WordPiece vs. Unigram

    Unigram startet mit großem Vokabular und entfernt Tokens; WordPiece baut von unten auf. Unigram wird in SentencePiece verwendet.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!