N-Gramm
Zusammenhängende Sequenz von N Elementen (Zeichen oder Wörtern) aus einem Text.
N-grams sind Wort- oder Zeichen-Sequenzen der Länge N – Grundlage für klassische Sprachmodelle, BLEU-Score und Textanalyse.
Erklärung
Unigram (N=1): einzelne Wörter. Bigram (N=2): Wortpaare ("New York"). Trigram (N=3): Drei-Wort-Sequenzen. N-grams erfassen lokalen Kontext und Kookkurrenzen.
Relevanz für Marketing
N-grams sind Grundlage für Sprachmodelle, Textklassifikation und Plagiatserkennung.
Häufige Fallstricke
Exponentielles Wachstum mit N. Sparse-Data-Problem bei großen N. Können keinen Langstrecken-Kontext erfassen.
Entstehung & Geschichte
Shannon nutzte N-gram-Modelle 1948 in der Informationstheorie. N-gram-Sprachmodelle dominierten NLP von den 1980ern bis 2013. Google veröffentlichte 2006 den Google N-gram Viewer. Neurale Sprachmodelle (Word2Vec, Transformer) lösten N-gram-LMs weitgehend ab.
Abgrenzung & Vergleiche
N-Gramm vs. Transformer
N-gram-Modelle nutzen lokalen Kontext (N Wörter); Transformer nutzen globale Self-Attention über beliebige Distanzen.
N-Gramm vs. Skip-gram
N-grams sind zusammenhängend; Skip-grams erlauben Lücken und werden in Word2Vec für Wort-Embeddings genutzt.