Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Attention Sink

    Auch bekannt als:
    Attention-Senke
    BOS-Attention
    Sink Token
    Aktualisiert: 11.2.2026

    Ein Phänomen in LLMs, bei dem das erste Token (BOS) unverhältnismäßig hohe Attention erhält, auch wenn es semantisch irrelevant ist.

    Kurz erklärt

    Attention Sinks "parken" überschüssige Attention beim ersten Token – StreamingLLM nutzt dies für unbegrenzten Kontext bei konstantem Speicher.

    Erklärung

    Softmax erzwingt, dass Attention-Gewichte sich zu 1 summieren. Wenn ein Token auf nichts Relevantes achten muss, "parkt" es Attention beim ersten Token (Sink). StreamingLLM nutzt Attention Sinks, indem es BOS-Tokens im KV-Cache behält, was Streaming über unbegrenzte Kontexte ermöglicht.

    Relevanz für Marketing

    Verständnis von Attention Sinks ermöglicht effizientes Streaming-Inference mit unbegrenztem Kontext bei konstantem Speicher.

    Häufige Fallstricke

    Nicht alle Modelle haben gleich starke Attention Sinks. Entfernen des BOS-Tokens aus dem Cache kann Modellqualität dramatisch verschlechtern.

    Entstehung & Geschichte

    Xiao et al. (MIT, 2023) entdeckten Attention Sinks und entwickelten StreamingLLM. Die Erkenntnis: Nur 4 Sink-Tokens + Window reichen für stabile Inferenz über Millionen Tokens.

    Abgrenzung & Vergleiche

    Attention Sink vs. Sliding Window Attention

    SWA beschränkt Attention auf ein Fenster; Attention Sink + SWA (StreamingLLM) behält zusätzlich BOS-Tokens für Stabilität.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!