Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    BPE (Byte Pair Encoding)

    Aktualisiert: 10.2.2026

    Subword-Tokenisierungsalgorithmus, der häufige Zeichenpaare iterativ zusammenfasst, um ein optimales Vokabular zu erstellen.

    Kurz erklärt

    BPE erstellt ein Subword-Vokabular durch iteratives Zusammenfassen häufiger Zeichenpaare – Basis für GPT-Tokenizer (tiktoken) und die meisten modernen LLMs.

    Erklärung

    BPE startet mit einzelnen Zeichen und merged iterativ die häufigsten Paare. "low", "lower", "lowest" teilen den Subword "low". GPT-Modelle nutzen BPE via tiktoken.

    Relevanz für Marketing

    BPE ist der Tokenizer-Standard für GPT-Modelle und die Grundlage für effiziente Text-Verarbeitung in LLMs.

    Häufige Fallstricke

    Vokabulargröße muss als Hyperparameter gewählt werden. Greedy-Merging findet nicht immer die optimale Zerlegung. Nicht alle Sprachen profitieren gleich.

    Entstehung & Geschichte

    BPE stammt ursprünglich aus der Datenkompression (Gage, 1994). Sennrich et al. adaptierten BPE 2016 für neurale maschinelle Übersetzung. OpenAI nutzte BPE für alle GPT-Modelle. tiktoken (2022) optimierte die BPE-Implementierung für Geschwindigkeit.

    Abgrenzung & Vergleiche

    BPE (Byte Pair Encoding) vs. WordPiece

    BPE merged nach Häufigkeit; WordPiece maximiert die Likelihood des Trainingskorpus. BPE nutzt GPT, WordPiece nutzt BERT.

    BPE (Byte Pair Encoding) vs. SentencePiece

    SentencePiece ist ein Framework, das BPE oder Unigram als Algorithmus nutzen kann; BPE ist ein spezifischer Algorithmus.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!