RoPE
Eine Methode zur Kodierung von Positionsinformationen in Transformers durch Rotation der Query- und Key-Vektoren, die relative Positionen natürlich erfasst.
RoPE kodiert Position durch Vektor-Rotation – ermöglicht elegante Context-Extension in modernen LLMs.
Erklärung
RoPE rotiert Q und K basierend auf ihrer Position mit unterschiedlichen Frequenzen. Das innere Produkt zwischen rotierten Vektoren hängt automatisch von relativer Position ab. Vorteile: Natürliche Extrapolation zu längeren Kontexten, kein zusätzlicher Speicher für Position-Embeddings.
Relevanz für Marketing
RoPE ist Standard in modernen Open-Source-LLMs (Llama, Mistral, Qwen). Ermöglicht Context-Extension durch Skalierung (YaRN, NTK-Aware) ohne Neutraining.
Beispiel
Llama 2 wurde mit 4K Kontext trainiert, kann aber durch RoPE-Skalierung (YaRN) auf 32K+ erweitert werden mit minimaler Qualitätsreduktion.
Häufige Fallstricke
Extreme Context-Extension (>10x) erfordert zusätzliches Training. Verschiedene Skalierungsmethoden (Linear, NTK, YaRN) haben unterschiedliche Tradeoffs.
Entstehung & Geschichte
RoPE wurde 2021 von Su et al. (RoFormer Paper) eingeführt. Wurde durch Llama (2023) zum de-facto Standard für Open-Source-LLMs. YaRN (2023) erweiterte es für längere Kontexte.
Abgrenzung & Vergleiche
RoPE vs. Absolute Position Embedding
Absolute Embeddings addieren Position-Vektoren; RoPE rotiert Query/Key und erfasst relative Position natürlicher.
RoPE vs. ALiBi
ALiBi addiert lineare Bias zu Attention-Scores; RoPE modifiziert die Vektoren selbst durch Rotation.