Scaled Dot-Product Attention
Die Basis-Attention-Berechnung: Attention(Q,K,V) = softmax(QK^T / √d_k) · V – die mathematische Grundlage aller Transformer.
Scaled Dot-Product Attention = softmax(QK^T/√d_k)V – die mathematische Formel hinter jedem Transformer, die Ähnlichkeit zwischen Tokens berechnet.
Erklärung
Q (Query) fragt: "Was suche ich?" K (Key) antwortet: "Was biete ich?" V (Value) liefert: "Hier ist der Inhalt." Das Skalarprodukt QK^T misst Ähnlichkeit. Division durch √d_k verhindert, dass große Dimensionen zu spitzen Softmax-Verteilungen führen.
Relevanz für Marketing
Die exakte Formel, die in jedem Transformer läuft – vom kleinsten DistilBERT bis zum größten GPT-5.
Häufige Fallstricke
Quadratische Komplexität O(n²) mit Sequenzlänge. Scaling-Faktor √d_k oft vergessen bei Custom-Implementierungen. Numerische Stabilität bei großem d_k.
Entstehung & Geschichte
Dot-Product Attention wurde von Luong et al. (2015) für maschinelle Übersetzung eingeführt. Vaswani et al. (2017) fügten den Scaling-Faktor 1/√d_k hinzu und machten es zum Kern des Transformers.
Abgrenzung & Vergleiche
Scaled Dot-Product Attention vs. Additive Attention (Bahdanau)
Additive Attention nutzt ein gelerntes Netzwerk für Score-Berechnung; Dot-Product ist einfacher, schneller, und skaliert besser mit GPU-Matrixmultiplikation.
Scaled Dot-Product Attention vs. Linear Attention
Scaled Dot-Product hat O(n²) Komplexität; Linear Attention approximiert mit O(n) durch Kernel-Tricks – schneller, aber weniger präzise.