FastText
Facebooks Open-Source-Library für effiziente Textklassifikation und Wort-Embeddings mit Sub-Word-Informationen.
FastText erzeugt Wort-Embeddings mit Character N-grams – kann OOV-Wörter und Tippfehler repräsentieren, ideal für mehrsprachige Textklassifikation.
Erklärung
FastText erweitert Word2Vec um Character N-grams: Das Wort "playing" wird als Summe von "pla", "lay", "ayi", "yin", "ing" repräsentiert. So können auch OOV-Wörter und Tippfehler sinnvoll vektorisiert werden.
Relevanz für Marketing
FastText ist ideal für Textklassifikation und Embeddings in ressourcenbeschränkten Umgebungen mit vielen Sprachen.
Häufige Fallstricke
Statische Embeddings (kein Kontext). Größerer Speicherbedarf als Word2Vec. Für moderne NLP von Transformer-Modellen abgelöst.
Entstehung & Geschichte
Facebook AI Research (FAIR) veröffentlichte FastText 2016 (Bojanowski et al.). Vortrainierte Vektoren für 157 Sprachen folgten 2018. FastText bleibt relevant für leichtgewichtige Klassifikation, wurde aber für Embeddings durch BERT/Sentence Transformers abgelöst.
Abgrenzung & Vergleiche
FastText vs. Word2Vec
Word2Vec arbeitet auf Wort-Ebene; FastText nutzt Character N-grams und kann OOV-Wörter repräsentieren.
FastText vs. Sentence Transformers
FastText erzeugt statische Wort-Vektoren; Sentence Transformers erzeugen kontextuelle Satz-Embeddings mit Transformer-Architektur.