Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (Vocabulary (NLP))

    Vokabular (NLP)

    Aktualisiert: 10.2.2026

    Die Gesamtmenge aller Tokens, die ein Sprachmodell kennt und verarbeiten kann.

    Kurz erklärt

    Das Vokabular eines LLM definiert alle Tokens, die es kennt – die Größe (32K-128K) beeinflusst Effizienz, Kosten und mehrsprachige Fähigkeiten.

    Erklärung

    Das Vokabular definiert die "Sprache" eines Modells. GPT-4 hat ~100.000 Tokens, Llama 3 hat 128.000 Tokens. Größeres Vokabular = kürzere Sequenzen aber größere Embedding-Matrix.

    Relevanz für Marketing

    Die Vokabulargröße beeinflusst direkt Tokenisierungs-Effizienz, Modellgröße und mehrsprachige Fähigkeiten.

    Häufige Fallstricke

    Zu kleines Vokabular fragmentiert Wörter exzessiv. Zu großes Vokabular verschwendet Parameter. OOV-Tokens bei unbekannten Wörtern.

    Entstehung & Geschichte

    Frühe NLP-Systeme nutzten Wort-basierte Vokabulare mit 50.000-100.000 Einträgen. Subword-Tokenization (BPE, 2016) reduzierte OOV-Probleme. GPT-2 nutzte 50.257 Tokens, GPT-4 erweiterte auf ~100.000, Llama 3 auf 128.000 für bessere Mehrsprachigkeit.

    Abgrenzung & Vergleiche

    Vokabular (NLP) vs. Embedding

    Das Vokabular definiert welche Tokens existieren; Embeddings weisen jedem Token einen Vektor zu der seine Bedeutung kodiert.

    Vokabular (NLP) vs. Dictionary

    Ein Wörterbuch enthält Wortdefinitionen; ein NLP-Vokabular ist eine Token-ID-Zuordnung ohne linguistische Bedeutung.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!