Stoppwort-Entfernung
Die Entfernung hochfrequenter Wörter ohne semantischen Gehalt (der, die, das, und, ist) aus Text vor der Verarbeitung.
Stoppwort-Entfernung filtert bedeutungsarme Wörter (der, und, ist) aus Text – wichtig für TF-IDF und klassisches NLP, bei LLMs nicht mehr nötig.
Erklärung
Stoppwörter wie "der", "und", "ist" tragen wenig Bedeutung. Ihre Entfernung reduziert Vokabulargröße und Noise. Stoppwort-Listen sind sprach- und domänenspezifisch.
Relevanz für Marketing
Stoppwort-Entfernung verbessert TF-IDF, Topic Modeling und klassische Suchsysteme.
Häufige Fallstricke
Nicht für LLMs nötig – Transformer lernen Stoppwörter zu ignorieren. Bei Phrasensuche wichtige Wörter entfernt ("to be or not to be").
Entstehung & Geschichte
Hans Peter Luhn führte 1958 das Konzept ein. Stoppwort-Listen wurden zum Standard in Information Retrieval (1960er-2010er). Mit Transformer-Modellen (2017+) verliert Stoppwort-Entfernung an Bedeutung, bleibt aber in klassischen Suchsystemen relevant.
Abgrenzung & Vergleiche
Stoppwort-Entfernung vs. Stemming
Stoppwort-Entfernung entfernt ganze Wörter; Stemming kürzt Wortformen auf ihren Stamm.
Stoppwort-Entfernung vs. TF-IDF
TF-IDF gewichtet Wörter statistisch herunter (soft); Stoppwort-Entfernung entfernt sie komplett (hard filtering).