Question 1

Was ist Multi-Query Attention (MQA)?

Accepted Answer

Multi-Query Attention teilt sich einen einzigen Key-Value-Kopf über alle Query-Köpfe – reduziert KV-Cache um bis zu 8x bei minimalem Qualitätsverlust. Standard Multi-Head Attention: Jeder Head hat eigene Q, K, V (z.B. 32 Heads = 32 KV-Paare). MQA: Alle Heads teilen ein K/V-Paar. Resultat: KV-Cache 32x kleiner. Grouped-Query Attention (GQA) ist der Kompromiss: z.B. 8 Gruppen statt 32.

Question 2

Wie funktioniert Multi-Query Attention (MQA)?

Accepted Answer

Standard Multi-Head Attention: Jeder Head hat eigene Q, K, V (z.B. 32 Heads = 32 KV-Paare). MQA: Alle Heads teilen ein K/V-Paar. Resultat: KV-Cache 32x kleiner. Grouped-Query Attention (GQA) ist der Kompromiss: z.B. 8 Gruppen statt 32.

Question 3

Warum ist Multi-Query Attention (MQA) wichtig für Marketing?

Accepted Answer

MQA/GQA ermöglicht längere Kontexte und größere Batches bei LLM-Inference – LLaMA 2/3, Gemini und Mistral nutzen GQA.

Question 4

Woher kommt Multi-Query Attention (MQA)?

Accepted Answer

Shazeer (2019) führte Multi-Query Attention bei Google ein. PaLM (2022) nutzte MQA erfolgreich. Ainslie et al. (2023) entwickelten Grouped-Query Attention (GQA) als flexibleren Kompromiss. LLaMA 2 (Meta, 2023) übernahm GQA und machte es zum Standard für Open-Source-LLMs.

Question 5

Was ist der Unterschied zwischen Multi-Query Attention (MQA) und Multi-Head Attention?

Accepted Answer

Multi-Query Attention (MQA) und Multi-Head Attention sind verwandte Konzepte im Bereich der KI und des Marketings. Multi-Query Attention teilt sich einen einzigen Key-Value-Kopf über alle Query-Köpfe – reduziert KV-...

Multi-Query Attention (MQA)

Erklärung

Relevanz für Marketing

Entstehung & Geschichte

Abgrenzung & Vergleiche

Multi-Query Attention (MQA) vs. Multi-Head Attention

Multi-Query Attention (MQA) vs. Grouped-Query Attention (GQA)

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe