RetNet (Retentive Network)
Eine Architektur von Microsoft, die Transformer-Qualität mit linearer Inferenz-Komplexität kombiniert durch einen "Retention"-Mechanismus.
RetNet bietet drei Compute-Modi (parallel, rekurrent, chunk-weise) und erreicht Transformer-Qualität bei O(1)-Inferenz pro Token.
Erklärung
RetNet bietet drei Compute-Modi: paralleles Training (wie Transformer), rekurrente Inferenz (O(1) pro Token, wie RNN) und Chunk-weise Verarbeitung (Hybrid). Der Retention-Mechanismus ersetzt Softmax-Attention durch exponentiell gewichtete Summen.
Relevanz für Marketing
RetNet verspricht "das Unmögliche": Transformer-Qualität bei Training mit O(1)-Inferenz – bisher aber nicht in großen Produktionsmodellen validiert.
Häufige Fallstricke
Noch keine großen Produktionsmodelle. Qualitäts-Claims noch nicht unabhängig repliziert. Komplexere Implementierung als Standard-Transformer.
Entstehung & Geschichte
Sun et al. (Microsoft Research, 2023) führten RetNet ein. Das Paper zeigte vielversprechende Ergebnisse bei 6.7B Parametern. Bisher aber keine Adoption in großen Open-Source- oder Commercial-Modellen.
Abgrenzung & Vergleiche
RetNet (Retentive Network) vs. Transformer
Transformer: O(N) Inferenz-Speicher (KV-Cache); RetNet: O(1) Inferenz-Speicher durch rekurrenten Modus.
RetNet (Retentive Network) vs. Mamba
Mamba nutzt Selective SSMs; RetNet nutzt Retention (exponentiell gewichtete Summen) – unterschiedliche Ansätze für lineare Inferenz.