Question 1

Was ist Attention Sink?

Accepted Answer

Ein Phänomen in LLMs, bei dem das erste Token (BOS) unverhältnismäßig hohe Attention erhält, auch wenn es semantisch irrelevant ist. Softmax erzwingt, dass Attention-Gewichte sich zu 1 summieren. Wenn ein Token auf nichts Relevantes achten muss, "parkt" es Attention beim ersten Token (Sink). StreamingLLM nutzt Attention Sinks, indem es BOS-Tokens im KV-Cache behält, was Streaming über unbegrenzte Kontexte ermöglicht.

Question 2

Wie funktioniert Attention Sink?

Accepted Answer

Softmax erzwingt, dass Attention-Gewichte sich zu 1 summieren. Wenn ein Token auf nichts Relevantes achten muss, "parkt" es Attention beim ersten Token (Sink). StreamingLLM nutzt Attention Sinks, indem es BOS-Tokens im KV-Cache behält, was Streaming über unbegrenzte Kontexte ermöglicht.

Question 3

Warum ist Attention Sink wichtig für Marketing?

Accepted Answer

Verständnis von Attention Sinks ermöglicht effizientes Streaming-Inference mit unbegrenztem Kontext bei konstantem Speicher.

Question 4

Was sind häufige Fehler bei Attention Sink?

Accepted Answer

Nicht alle Modelle haben gleich starke Attention Sinks. Entfernen des BOS-Tokens aus dem Cache kann Modellqualität dramatisch verschlechtern.

Question 5

Woher kommt Attention Sink?

Accepted Answer

Xiao et al. (MIT, 2023) entdeckten Attention Sinks und entwickelten StreamingLLM. Die Erkenntnis: Nur 4 Sink-Tokens + Window reichen für stabile Inferenz über Millionen Tokens.

Question 6

Was ist der Unterschied zwischen Attention Sink und KV Cache (Key-Value Cache)?

Accepted Answer

Attention Sink und KV Cache (Key-Value Cache) sind verwandte Konzepte im Bereich der KI und des Marketings. Ein Phänomen in LLMs, bei dem das erste Token (BOS) unverhältnismäßig hohe Attention erhält, auch we...

Attention Sink

Erklärung

Relevanz für Marketing

Häufige Fallstricke

Entstehung & Geschichte

Abgrenzung & Vergleiche

Attention Sink vs. Sliding Window Attention

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe