Attention Pooling
Attention Pooling aggregiert eine Sequenz von Vektoren zu einem einzigen Repräsentationsvektor, indem gelernten Attention-Gewichten den wichtigsten Elementen mehr Bedeutung gegeben wird.
Attention Pooling gewichtet Token-Repräsentationen intelligent statt gleichmäßig – erzeugt bessere Embeddings durch Fokussierung auf die informativsten Elemente.
Erklärung
Statt Mean-Pooling (alle Token gleich gewichtet) oder CLS-Token (nur ein Token): Attention Pooling lernt, welche Tokens am informativsten sind. Wird für Sentence Embeddings, Document Representation und Multi-Instance Learning verwendet.
Relevanz für Marketing
Verbessert Embedding-Qualität für Retrieval und Similarity Search – wichtig für RAG-Pipelines und semantische Suche.
Entstehung & Geschichte
Attention Pooling wurde in verschiedenen Kontexten entwickelt: Multi-Instance Learning (Ilse et al., 2018), Sentence Embeddings und Document Classification. Moderne Embedding-Modelle wie E5 und BGE nutzen Varianten von Attention Pooling für bessere Repräsentationen.
Abgrenzung & Vergleiche
Attention Pooling vs. Mean Pooling
Mean Pooling gewichtet alle Tokens gleich; Attention Pooling lernt unterschiedliche Gewichte basierend auf Relevanz.
Attention Pooling vs. CLS Token
CLS nutzt nur einen speziellen Token als Repräsentation; Attention Pooling aggregiert Information aus allen Tokens gewichtet.