Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Linear Attention

    Auch bekannt als:
    Lineare Attention
    Kernelized Attention
    Aktualisiert: 11.2.2026

    Attention-Varianten, die die quadratische Komplexität O(N²) auf lineare O(N) reduzieren durch Kernel-Approximation oder alternative Berechnungsreihenfolge.

    Kurz erklärt

    Linear Attention reduziert Attention von O(N²) auf O(N) – vielversprechend für ultra-lange Sequenzen, aber noch keine Softmax-Parität.

    Erklärung

    Standard-Attention: softmax(QK^T)V ist O(N²). Linear Attention nutzt Feature-Maps φ: φ(Q)(φ(K)^T V), wobei die Berechnung in O(N) möglich wird durch Assoziation. Varianten: Performer (Random Features), RetNet (Retention), Mamba (State Space Models).

    Relevanz für Marketing

    Linear Attention ist vielversprechend für ultra-lange Kontexte, hat aber in der Praxis noch nicht die Qualität von Softmax-Attention erreicht.

    Häufige Fallstricke

    Qualitätslücke zu Softmax-Attention bei vielen Tasks. Kernel-Approximation kann instabil sein. Weniger mature Implementierungen.

    Entstehung & Geschichte

    Katharopoulos et al. (2020) formalisierten Linear Attention. Performer (Google, 2020) nutzte Random Features. RetNet (Microsoft, 2023) und Mamba (Gu & Dao, 2023) kombinierten lineare Recurrence mit Attention-ähnlicher Qualität.

    Abgrenzung & Vergleiche

    Linear Attention vs. Softmax Attention

    Softmax-Attention ist O(N²) aber qualitativ überlegen; Linear Attention ist O(N) aber mit Qualitäts-Tradeoff.

    Linear Attention vs. State Space Models (Mamba)

    SSMs erreichen O(N) durch Recurrence statt Attention-Approximation – oft bessere Qualität als reine Linear Attention.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!