Stemming
Regelbasierte Reduktion von Wörtern auf ihren Wortstamm durch Abschneiden von Suffixen.
Stemming reduziert Wörter regelbasiert auf ihren Stamm für Suchmaschinen und Text-Retrieval – schnell aber ungenauer als Lemmatization.
Erklärung
Stemming schneidet Wortendungen ab: "running" → "run", "computers" → "comput". Es ist schnell aber ungenau – der Stamm muss kein echtes Wort sein.
Relevanz für Marketing
Stemming wird in Suchmaschinen und Information Retrieval für Textnormalisierung eingesetzt.
Häufige Fallstricke
Over-stemming: Verschiedene Bedeutungen auf denselben Stamm reduziert. Under-stemming: Zusammengehörige Formen nicht erkannt.
Entstehung & Geschichte
Martin Porter entwickelte 1980 den Porter Stemmer, der bis heute der bekannteste Algorithmus ist. Snowball (Porter2) verbesserte ihn 2001 für weitere Sprachen. Mit dem Aufkommen von LLMs verliert Stemming an Bedeutung, bleibt aber in klassischen Suchsystemen relevant.
Abgrenzung & Vergleiche
Stemming vs. Lemmatization
Stemming schneidet Suffixe regelbasiert ab; Lemmatization nutzt linguistisches Wissen und liefert echte Wortformen.
Stemming vs. Subword Tokenization
Stemming normalisiert für Retrieval; Subword Tokenization zerlegt für neurale Modelle – unterschiedliche Ziele und Methoden.