RWKV
Eine Open-Source-Architektur, die RNN-Effizienz (O(1) Inferenz pro Token) mit Transformer-ähnlicher Parallelisierbarkeit beim Training kombiniert.
RWKV kombiniert RNN-Inferenz (O(1) pro Token, kein KV-Cache) mit Transformer-Training – Open-Source-Alternative bis 14B Parameter.
Erklärung
RWKV ersetzt Attention durch einen WKV-Mechanismus (gewichtete Key-Value-Aggregation mit exponentiellem Decay). Beim Training wird parallel berechnet (wie Transformer), bei Inferenz rekurrent (wie RNN). Modelle bis 14B Parameter sind verfügbar.
Relevanz für Marketing
RWKV ist die einzige Community-getriebene Transformer-Alternative mit großen trainierten Modellen und aktiver Weiterentwicklung.
Häufige Fallstricke
Qualitäts-Gap zu gleich großen Transformer-Modellen bei komplexem Reasoning. Kleinere Community und weniger Tooling.
Entstehung & Geschichte
Bo Peng entwickelte RWKV ab 2022 als Community-Projekt. RWKV-4 (2023) zeigte kompetitive Ergebnisse. RWKV-5 "Eagle" und RWKV-6 "Finch" (2024) verbesserten Qualität weiter. Die RWKV Foundation koordiniert die Open-Source-Entwicklung.
Abgrenzung & Vergleiche
RWKV vs. Transformer
Transformer brauchen KV-Cache (O(N) Speicher); RWKV braucht nur festen State (O(1)) – deutlich speichereffizienter bei Inferenz.
RWKV vs. Mamba
Mamba nutzt Selective SSMs; RWKV nutzt lineare Attention mit WKV – Mamba hat mehr akademische Validierung, RWKV mehr trainierte Modelle.