Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Scaled Dot-Product Attention

    Auch bekannt als:
    Skalierte Skalarprodukt-Attention
    QKV-Attention
    Dot-Product Attention
    Aktualisiert: 10.2.2026

    Die Basis-Attention-Berechnung: Attention(Q,K,V) = softmax(QK^T / √d_k) · V – die mathematische Grundlage aller Transformer.

    Kurz erklärt

    Scaled Dot-Product Attention = softmax(QK^T/√d_k)V – die mathematische Formel hinter jedem Transformer, die Ähnlichkeit zwischen Tokens berechnet.

    Erklärung

    Q (Query) fragt: "Was suche ich?" K (Key) antwortet: "Was biete ich?" V (Value) liefert: "Hier ist der Inhalt." Das Skalarprodukt QK^T misst Ähnlichkeit. Division durch √d_k verhindert, dass große Dimensionen zu spitzen Softmax-Verteilungen führen.

    Relevanz für Marketing

    Die exakte Formel, die in jedem Transformer läuft – vom kleinsten DistilBERT bis zum größten GPT-5.

    Häufige Fallstricke

    Quadratische Komplexität O(n²) mit Sequenzlänge. Scaling-Faktor √d_k oft vergessen bei Custom-Implementierungen. Numerische Stabilität bei großem d_k.

    Entstehung & Geschichte

    Dot-Product Attention wurde von Luong et al. (2015) für maschinelle Übersetzung eingeführt. Vaswani et al. (2017) fügten den Scaling-Faktor 1/√d_k hinzu und machten es zum Kern des Transformers.

    Abgrenzung & Vergleiche

    Scaled Dot-Product Attention vs. Additive Attention (Bahdanau)

    Additive Attention nutzt ein gelerntes Netzwerk für Score-Berechnung; Dot-Product ist einfacher, schneller, und skaliert besser mit GPU-Matrixmultiplikation.

    Scaled Dot-Product Attention vs. Linear Attention

    Scaled Dot-Product hat O(n²) Komplexität; Linear Attention approximiert mit O(n) durch Kernel-Tricks – schneller, aber weniger präzise.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!