Jamba
AI21 Labs' Hybrid-Architektur, die Transformer-Attention mit Mamba SSM-Schichten und MoE kombiniert für effiziente lange Kontexte.
Jamba ist AI21 Labs' Hybrid aus Transformer + Mamba + MoE – 256K Kontext bei 3x weniger KV-Cache als reine Transformer.
Erklärung
Jamba interleaved Transformer-Blöcke (mit Attention) und Mamba-Blöcke (mit SSM). MoE wird in beiden Blocktypen eingesetzt. Ergebnis: 256K Kontext bei 3x weniger KV-Cache als vergleichbare Transformer. 52B Parameter total, 12B aktiv.
Relevanz für Marketing
Jamba zeigt, dass Hybrid-Architekturen (Attention + SSM) die Stärken beider Ansätze vereinen können.
Häufige Fallstricke
Komplexere Architektur erschwert Community-Adoption. Nur von AI21 Labs trainiert. Optimales Ratio Attention:Mamba-Blöcke noch unklar.
Entstehung & Geschichte
AI21 Labs veröffentlichte Jamba im März 2024 als erstes Produktion-reifes Mamba-Hybrid-Modell. Jamba 1.5 (2024) erweiterte auf 256K Kontext und zeigte kompetitive Performance gegen Llama 3 70B.
Abgrenzung & Vergleiche
Jamba vs. Llama 3
Llama 3 ist reiner Transformer (großer KV-Cache); Jamba nutzt SSM-Blöcke für drastisch kleineren Cache bei vergleichbarer Qualität.
Jamba vs. Mamba
Reines Mamba fehlt Attention für In-Context Learning; Jamba nutzt strategisch platzierte Attention-Blöcke für bessere Reasoning-Fähigkeit.