Hyena
Ein subquadratischer Attention-Ersatz basierend auf langen Convolutions und datengesteuerten Gates, der O(N log N) statt O(N²) skaliert.
Hyena nutzt lange Convolutions + datengesteuerte Gates als O(N log N) Attention-Alternative – stark bei DNA und ultra-langen Sequenzen.
Erklärung
Hyena ersetzt Attention durch implizit parametrisierte lange Convolutions, die mit FFT effizient berechnet werden. Datengesteuerte Gates (gelernt aus dem Input) ermöglichen kontextabhängige Verarbeitung ähnlich wie Attention.
Relevanz für Marketing
Hyena zeigt vielversprechende Ergebnisse für DNA-Sequenzen (HyenaDNA) und andere ultra-lange Sequenzen.
Häufige Fallstricke
Noch nicht bei Language Tasks auf Transformer-Niveau. FFT-basierte Implementierung kann auf bestimmter Hardware ineffizient sein.
Entstehung & Geschichte
Poli et al. (Stanford, 2023) führten den Hyena-Operator ein. HyenaDNA (2023) zeigte State-of-the-Art bei Genomik-Tasks mit 1M+ Token Kontexten. Together AI integrierte Hyena in ihre Modell-Suite.
Abgrenzung & Vergleiche
Hyena vs. Mamba
Mamba nutzt Selective SSMs (O(N)); Hyena nutzt FFT-basierte Convolutions (O(N log N)) – Mamba ist bei Language besser, Hyena bei Genomik.