Attention Sink
Ein Phänomen in LLMs, bei dem das erste Token (BOS) unverhältnismäßig hohe Attention erhält, auch wenn es semantisch irrelevant ist.
Attention Sinks "parken" überschüssige Attention beim ersten Token – StreamingLLM nutzt dies für unbegrenzten Kontext bei konstantem Speicher.
Erklärung
Softmax erzwingt, dass Attention-Gewichte sich zu 1 summieren. Wenn ein Token auf nichts Relevantes achten muss, "parkt" es Attention beim ersten Token (Sink). StreamingLLM nutzt Attention Sinks, indem es BOS-Tokens im KV-Cache behält, was Streaming über unbegrenzte Kontexte ermöglicht.
Relevanz für Marketing
Verständnis von Attention Sinks ermöglicht effizientes Streaming-Inference mit unbegrenztem Kontext bei konstantem Speicher.
Häufige Fallstricke
Nicht alle Modelle haben gleich starke Attention Sinks. Entfernen des BOS-Tokens aus dem Cache kann Modellqualität dramatisch verschlechtern.
Entstehung & Geschichte
Xiao et al. (MIT, 2023) entdeckten Attention Sinks und entwickelten StreamingLLM. Die Erkenntnis: Nur 4 Sink-Tokens + Window reichen für stabile Inferenz über Millionen Tokens.
Abgrenzung & Vergleiche
Attention Sink vs. Sliding Window Attention
SWA beschränkt Attention auf ein Fenster; Attention Sink + SWA (StreamingLLM) behält zusätzlich BOS-Tokens für Stabilität.