Bag of Words (BoW)
Einfachste Textrepräsentation, die einen Text als ungeordnete Menge von Wörtern mit Häufigkeiten darstellt.
Bag of Words repräsentiert Text als Wort-Häufigkeitsvektor ohne Reihenfolge – einfachste Baseline für Textklassifikation, heute durch Embeddings abgelöst.
Erklärung
BoW ignoriert Grammatik und Wortstellung: "Der Hund beißt den Mann" und "Der Mann beißt den Hund" haben dieselbe Repräsentation. Trotz Limitationen nützlich als Baseline.
Relevanz für Marketing
BoW ist die Grundlage vieler klassischer ML-Methoden für Textklassifikation.
Häufige Fallstricke
Ignoriert Semantik und Wortstellung. Sparse Vektoren bei großem Vokabular. Wurde durch Embeddings weitgehend abgelöst.
Entstehung & Geschichte
Das BoW-Konzept stammt aus der Linguistik von Zellig Harris (1954). Es wurde zum Standard in Information Retrieval und Spam-Filtern. TF-IDF erweiterte BoW mit Relevanz-Gewichtung. Word2Vec (2013) und Transformer (2017) machten BoW für viele Aufgaben obsolet.
Abgrenzung & Vergleiche
Bag of Words (BoW) vs. Word Embedding
BoW erstellt sparse Häufigkeitsvektoren; Word Embeddings erstellen dense Bedeutungsvektoren, die Semantik erfassen.
Bag of Words (BoW) vs. TF-IDF
BoW zählt nur Häufigkeiten; TF-IDF gewichtet zusätzlich mit der Seltenheit eines Worts im Gesamtkorpus.