Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Bag of Words (BoW)

    Aktualisiert: 10.2.2026

    Einfachste Textrepräsentation, die einen Text als ungeordnete Menge von Wörtern mit Häufigkeiten darstellt.

    Kurz erklärt

    Bag of Words repräsentiert Text als Wort-Häufigkeitsvektor ohne Reihenfolge – einfachste Baseline für Textklassifikation, heute durch Embeddings abgelöst.

    Erklärung

    BoW ignoriert Grammatik und Wortstellung: "Der Hund beißt den Mann" und "Der Mann beißt den Hund" haben dieselbe Repräsentation. Trotz Limitationen nützlich als Baseline.

    Relevanz für Marketing

    BoW ist die Grundlage vieler klassischer ML-Methoden für Textklassifikation.

    Häufige Fallstricke

    Ignoriert Semantik und Wortstellung. Sparse Vektoren bei großem Vokabular. Wurde durch Embeddings weitgehend abgelöst.

    Entstehung & Geschichte

    Das BoW-Konzept stammt aus der Linguistik von Zellig Harris (1954). Es wurde zum Standard in Information Retrieval und Spam-Filtern. TF-IDF erweiterte BoW mit Relevanz-Gewichtung. Word2Vec (2013) und Transformer (2017) machten BoW für viele Aufgaben obsolet.

    Abgrenzung & Vergleiche

    Bag of Words (BoW) vs. Word Embedding

    BoW erstellt sparse Häufigkeitsvektoren; Word Embeddings erstellen dense Bedeutungsvektoren, die Semantik erfassen.

    Bag of Words (BoW) vs. TF-IDF

    BoW zählt nur Häufigkeiten; TF-IDF gewichtet zusätzlich mit der Seltenheit eines Worts im Gesamtkorpus.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!