Was ist der Unterschied zwischen Scaled Dot-Product Attention und Self-Attention?

Scaled Dot-Product Attention und Self-Attention sind verwandte Konzepte im Bereich der KI und des Marketings. Die Basis-Attention-Berechnung: Attention(Q,K,V) = softmax(QK^T / √d_k) · V – die mathematische Grun...

Künstliche Intelligenz

Scaled Dot-Product Attention

Auch bekannt als:

Skalierte Skalarprodukt-Attention

QKV-Attention

Dot-Product Attention

Aktualisiert: 10.2.2026

Die Basis-Attention-Berechnung: Attention(Q,K,V) = softmax(QK^T / √d_k) · V – die mathematische Grundlage aller Transformer.

Kurz erklärt

Scaled Dot-Product Attention = softmax(QK^T/√d_k)V – die mathematische Formel hinter jedem Transformer, die Ähnlichkeit zwischen Tokens berechnet.

Erklärung

Q (Query) fragt: "Was suche ich?" K (Key) antwortet: "Was biete ich?" V (Value) liefert: "Hier ist der Inhalt." Das Skalarprodukt QK^T misst Ähnlichkeit. Division durch √d_k verhindert, dass große Dimensionen zu spitzen Softmax-Verteilungen führen.

Relevanz für Marketing

Die exakte Formel, die in jedem Transformer läuft – vom kleinsten DistilBERT bis zum größten GPT-5.

Häufige Fallstricke

Quadratische Komplexität O(n²) mit Sequenzlänge. Scaling-Faktor √d_k oft vergessen bei Custom-Implementierungen. Numerische Stabilität bei großem d_k.

Entstehung & Geschichte

Dot-Product Attention wurde von Luong et al. (2015) für maschinelle Übersetzung eingeführt. Vaswani et al. (2017) fügten den Scaling-Faktor 1/√d_k hinzu und machten es zum Kern des Transformers.

Abgrenzung & Vergleiche

Scaled Dot-Product Attention vs. Additive Attention (Bahdanau)

Additive Attention nutzt ein gelerntes Netzwerk für Score-Berechnung; Dot-Product ist einfacher, schneller, und skaliert besser mit GPU-Matrixmultiplikation.

Scaled Dot-Product Attention vs. Linear Attention

Scaled Dot-Product hat O(n²) Komplexität; Linear Attention approximiert mit O(n) durch Kernel-Tricks – schneller, aber weniger präzise.