Question 1

Was ist GQA?

Accepted Answer

Eine Attention-Variante, bei der mehrere Query-Heads sich ein Key-Value-Paar teilen, um KV-Cache-Größe und Speicherverbrauch zu reduzieren. Standard Multi-Head Attention: Jeder Head hat eigene Q, K, V. Multi-Query Attention (MQA): Alle Heads teilen K, V. GQA ist der Kompromiss: Gruppen von Heads teilen K, V. Beispiel: 32 Query-Heads, 8 KV-Heads (Gruppe von 4). Reduziert KV-Cache um 4x bei minimalem Qualitätsverlust.

Question 2

Wie funktioniert GQA?

Accepted Answer

Standard Multi-Head Attention: Jeder Head hat eigene Q, K, V. Multi-Query Attention (MQA): Alle Heads teilen K, V. GQA ist der Kompromiss: Gruppen von Heads teilen K, V. Beispiel: 32 Query-Heads, 8 KV-Heads (Gruppe von 4). Reduziert KV-Cache um 4x bei minimalem Qualitätsverlust.

Question 3

Warum ist GQA wichtig für Marketing?

Accepted Answer

GQA ist Standard in Llama 2/3, Mistral, Gemma. Ermöglicht längere Kontexte und größere Batch-Sizes bei gleicher GPU.

Question 4

Wie wird GQA in der Praxis eingesetzt?

Accepted Answer

Llama 2 70B mit GQA (8 KV-Heads) braucht ~5x weniger KV-Cache als mit Standard-Attention (32 KV-Heads), ermöglicht 128K Kontext.

Question 5

Was sind häufige Fehler bei GQA?

Accepted Answer

Zu wenige KV-Heads können Qualität reduzieren. Optimales Verhältnis Query:KV variiert nach Modellgröße.

Question 6

Woher kommt GQA?

Accepted Answer

GQA wurde 2023 von Ainslie et al. (Google) als Kompromiss zwischen MHA und MQA eingeführt. Wurde schnell von Llama 2, Mistral und anderen Open-Source-Modellen übernommen.

GQA

Erklärung

Relevanz für Marketing

Beispiel

Häufige Fallstricke

Entstehung & Geschichte

Abgrenzung & Vergleiche

GQA vs. Multi-Head Attention

GQA vs. Multi-Query Attention

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe