Lemmatisierung
Linguistisch fundierte Reduktion von Wörtern auf ihre Grundform (Lemma) unter Berücksichtigung von Wortart und Kontext.
Lemmatization reduziert Wörter auf ihre linguistische Grundform (Lemma) – präziser als Stemming, wird in spaCy und modernem NLP eingesetzt.
Erklärung
Lemmatization nutzt Morphologie und Wörterbücher: "better" → "good", "ran" → "run", "mice" → "mouse". Langsamer als Stemming, aber semantisch korrekt.
Relevanz für Marketing
Lemmatization liefert präzisere Ergebnisse als Stemming für linguistisch anspruchsvolle NLP-Anwendungen.
Häufige Fallstricke
Benötigt POS-Tagging für korrekte Ergebnisse. Langsamer als Stemming. Sprachabhängige Wörterbücher nötig.
Entstehung & Geschichte
Lemmatization hat Wurzeln in der computerlinguistischen Forschung der 1960er. WordNet (Princeton, 1985) wurde zum Standard-Lemma-Lexikon. spaCy (2015) und Stanza (Stanford, 2020) machten Lemmatization in Python praktikabel.
Abgrenzung & Vergleiche
Lemmatisierung vs. Stemming
Stemming ist schnell/regelbasiert aber ungenau; Lemmatization nutzt linguistisches Wissen für korrekte Grundformen.
Lemmatisierung vs. Tokenization
Tokenization zerlegt Text in Einheiten; Lemmatization normalisiert diese Einheiten auf ihre Grundform.