Multi-Query Attention (MQA)
Multi-Query Attention teilt sich einen einzigen Key-Value-Kopf über alle Query-Köpfe – reduziert KV-Cache um bis zu 8x bei minimalem Qualitätsverlust.
MQA teilt Key-Value-Köpfe zwischen Query-Heads – schrumpft den KV-Cache dramatisch und macht lange Kontexte bei LLM-Inference bezahlbar.
Erklärung
Standard Multi-Head Attention: Jeder Head hat eigene Q, K, V (z.B. 32 Heads = 32 KV-Paare). MQA: Alle Heads teilen ein K/V-Paar. Resultat: KV-Cache 32x kleiner. Grouped-Query Attention (GQA) ist der Kompromiss: z.B. 8 Gruppen statt 32.
Relevanz für Marketing
MQA/GQA ermöglicht längere Kontexte und größere Batches bei LLM-Inference – LLaMA 2/3, Gemini und Mistral nutzen GQA.
Entstehung & Geschichte
Shazeer (2019) führte Multi-Query Attention bei Google ein. PaLM (2022) nutzte MQA erfolgreich. Ainslie et al. (2023) entwickelten Grouped-Query Attention (GQA) als flexibleren Kompromiss. LLaMA 2 (Meta, 2023) übernahm GQA und machte es zum Standard für Open-Source-LLMs.
Abgrenzung & Vergleiche
Multi-Query Attention (MQA) vs. Multi-Head Attention
Multi-Head: Jeder Head hat eigene K/V (mehr Expressivität, mehr Speicher); MQA: Geteilte K/V (weniger Speicher, minimal weniger Qualität).
Multi-Query Attention (MQA) vs. Grouped-Query Attention (GQA)
MQA: 1 KV-Kopf für alle Queries; GQA: Gruppen von Queries teilen sich KV-Köpfe (flexiblerer Kompromiss).