Linear Attention
Attention-Varianten, die die quadratische Komplexität O(N²) auf lineare O(N) reduzieren durch Kernel-Approximation oder alternative Berechnungsreihenfolge.
Linear Attention reduziert Attention von O(N²) auf O(N) – vielversprechend für ultra-lange Sequenzen, aber noch keine Softmax-Parität.
Erklärung
Standard-Attention: softmax(QK^T)V ist O(N²). Linear Attention nutzt Feature-Maps φ: φ(Q)(φ(K)^T V), wobei die Berechnung in O(N) möglich wird durch Assoziation. Varianten: Performer (Random Features), RetNet (Retention), Mamba (State Space Models).
Relevanz für Marketing
Linear Attention ist vielversprechend für ultra-lange Kontexte, hat aber in der Praxis noch nicht die Qualität von Softmax-Attention erreicht.
Häufige Fallstricke
Qualitätslücke zu Softmax-Attention bei vielen Tasks. Kernel-Approximation kann instabil sein. Weniger mature Implementierungen.
Entstehung & Geschichte
Katharopoulos et al. (2020) formalisierten Linear Attention. Performer (Google, 2020) nutzte Random Features. RetNet (Microsoft, 2023) und Mamba (Gu & Dao, 2023) kombinierten lineare Recurrence mit Attention-ähnlicher Qualität.
Abgrenzung & Vergleiche
Linear Attention vs. Softmax Attention
Softmax-Attention ist O(N²) aber qualitativ überlegen; Linear Attention ist O(N) aber mit Qualitäts-Tradeoff.
Linear Attention vs. State Space Models (Mamba)
SSMs erreichen O(N) durch Recurrence statt Attention-Approximation – oft bessere Qualität als reine Linear Attention.