Textnormalisierung
Die Standardisierung von Textdaten durch Umwandlung in eine einheitliche Form – Lowercasing, Unicode-Normalisierung, Zeichenersetzung und mehr.
Text Normalization standardisiert Textdaten (Lowercasing, Unicode, Whitespace) als erster Schritt jeder NLP-Pipeline.
Erklärung
Text Normalization umfasst: Lowercasing ("KI" → "ki"), Unicode-Normalisierung (Akzente, Umlaute), Whitespace-Bereinigung, Sonderzeichen-Handling und Zahlen-Standardisierung.
Relevanz für Marketing
Textnormalisierung ist der erste Schritt jeder NLP-Pipeline und beeinflusst die Qualität aller nachfolgenden Verarbeitungsschritte.
Häufige Fallstricke
Übermäßige Normalisierung zerstört Information (Groß-/Kleinschreibung bei NER). Sprach-spezifische Regeln nötig. Unicode-Edge-Cases.
Entstehung & Geschichte
Textnormalisierung war seit den 1960ern Teil der computerlinguistischen Forschung. Unicode-Standard (1991) formalisierte Zeichenkodierung. Modern nutzen Regex und Unicode-Libraries (ICU) die Normalisierung. LLM-Tokenizer übernehmen zunehmend Normalisierung automatisch.
Abgrenzung & Vergleiche
Textnormalisierung vs. Tokenization
Normalisierung bereinigt und standardisiert Text; Tokenization zerlegt den normalisierten Text in Token-Einheiten.