Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Multi-Query Attention (MQA)

    Auch bekannt als:
    MQA
    Shared Key-Value Attention
    Geteilte KV-Köpfe
    Aktualisiert: 9.2.2026

    Multi-Query Attention teilt sich einen einzigen Key-Value-Kopf über alle Query-Köpfe – reduziert KV-Cache um bis zu 8x bei minimalem Qualitätsverlust.

    Kurz erklärt

    MQA teilt Key-Value-Köpfe zwischen Query-Heads – schrumpft den KV-Cache dramatisch und macht lange Kontexte bei LLM-Inference bezahlbar.

    Erklärung

    Standard Multi-Head Attention: Jeder Head hat eigene Q, K, V (z.B. 32 Heads = 32 KV-Paare). MQA: Alle Heads teilen ein K/V-Paar. Resultat: KV-Cache 32x kleiner. Grouped-Query Attention (GQA) ist der Kompromiss: z.B. 8 Gruppen statt 32.

    Relevanz für Marketing

    MQA/GQA ermöglicht längere Kontexte und größere Batches bei LLM-Inference – LLaMA 2/3, Gemini und Mistral nutzen GQA.

    Entstehung & Geschichte

    Shazeer (2019) führte Multi-Query Attention bei Google ein. PaLM (2022) nutzte MQA erfolgreich. Ainslie et al. (2023) entwickelten Grouped-Query Attention (GQA) als flexibleren Kompromiss. LLaMA 2 (Meta, 2023) übernahm GQA und machte es zum Standard für Open-Source-LLMs.

    Abgrenzung & Vergleiche

    Multi-Query Attention (MQA) vs. Multi-Head Attention

    Multi-Head: Jeder Head hat eigene K/V (mehr Expressivität, mehr Speicher); MQA: Geteilte K/V (weniger Speicher, minimal weniger Qualität).

    Multi-Query Attention (MQA) vs. Grouped-Query Attention (GQA)

    MQA: 1 KV-Kopf für alle Queries; GQA: Gruppen von Queries teilen sich KV-Köpfe (flexiblerer Kompromiss).

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!