Vokabular (NLP)
Die Gesamtmenge aller Tokens, die ein Sprachmodell kennt und verarbeiten kann.
Das Vokabular eines LLM definiert alle Tokens, die es kennt – die Größe (32K-128K) beeinflusst Effizienz, Kosten und mehrsprachige Fähigkeiten.
Erklärung
Das Vokabular definiert die "Sprache" eines Modells. GPT-4 hat ~100.000 Tokens, Llama 3 hat 128.000 Tokens. Größeres Vokabular = kürzere Sequenzen aber größere Embedding-Matrix.
Relevanz für Marketing
Die Vokabulargröße beeinflusst direkt Tokenisierungs-Effizienz, Modellgröße und mehrsprachige Fähigkeiten.
Häufige Fallstricke
Zu kleines Vokabular fragmentiert Wörter exzessiv. Zu großes Vokabular verschwendet Parameter. OOV-Tokens bei unbekannten Wörtern.
Entstehung & Geschichte
Frühe NLP-Systeme nutzten Wort-basierte Vokabulare mit 50.000-100.000 Einträgen. Subword-Tokenization (BPE, 2016) reduzierte OOV-Probleme. GPT-2 nutzte 50.257 Tokens, GPT-4 erweiterte auf ~100.000, Llama 3 auf 128.000 für bessere Mehrsprachigkeit.
Abgrenzung & Vergleiche
Vokabular (NLP) vs. Embedding
Das Vokabular definiert welche Tokens existieren; Embeddings weisen jedem Token einen Vektor zu der seine Bedeutung kodiert.
Vokabular (NLP) vs. Dictionary
Ein Wörterbuch enthält Wortdefinitionen; ein NLP-Vokabular ist eine Token-ID-Zuordnung ohne linguistische Bedeutung.