Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (Unigram Model (Tokenization))

    Unigram-Modell (Tokenization)

    Aktualisiert: 11.2.2026

    Subword-Tokenisierungsalgorithmus, der mit einem großen Vokabular startet und iterativ wenig nützliche Tokens entfernt.

    Kurz erklärt

    Das Unigram-Modell tokenisiert top-down: Start mit großem Vokabular, iterative Entfernung – Standard in SentencePiece für T5, ALBERT und XLNet.

    Erklärung

    Im Gegensatz zu BPE (bottom-up) arbeitet Unigram top-down: Es startet mit vielen Kandidaten und entfernt Tokens, die den geringsten Verlust an Likelihood verursachen. SentencePiece nutzt Unigram als Standard-Algorithmus.

    Relevanz für Marketing

    Unigram ist der Default-Algorithmus in SentencePiece und wird von T5, ALBERT und XLNet verwendet.

    Häufige Fallstricke

    Weniger verbreitet als BPE. Initiales Vokabular muss sinnvoll gewählt werden. Probabilistisches Sampling kann nicht-deterministische Ergebnisse liefern.

    Entstehung & Geschichte

    Taku Kudo (Google) veröffentlichte das Unigram-Modell 2018 zusammen mit SentencePiece. Es bietet theoretisch fundiertere Tokenization als BPE durch Likelihood-Optimierung und probabilistisches Sampling (Subword Regularization).

    Abgrenzung & Vergleiche

    Unigram-Modell (Tokenization) vs. BPE

    BPE baut bottom-up durch Merging häufiger Paare; Unigram entfernt top-down die am wenigsten nützlichen Tokens.

    Unigram-Modell (Tokenization) vs. WordPiece

    WordPiece merged nach Likelihood wie Unigram, arbeitet aber bottom-up; Unigram arbeitet top-down und unterstützt Subword Regularization.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!