S4 (Structured State Spaces for Sequences)
Die bahnbrechende State-Space-Architektur, die HiPPO-Initialisierung mit effizienter Convolution-Berechnung kombiniert und die SSM-Revolution auslöste.
S4 kombiniert HiPPO-Initialisierung mit Convolution-Training – der Durchbruch, der Mamba und die gesamte SSM-Revolution ermöglichte.
Erklärung
S4 löst das Problem des Trainings von SSMs: HiPPO-Matrix für Long-Range-Dependencies, DPLR-Parametrisierung für Stabilität, und Berechnung als Convolution für GPU-Parallelisierung. Erster SSM-Ansatz, der Long-Range Arena (LRA) dominierte.
Relevanz für Marketing
S4 ist der Grundstein für Mamba, Hyena und alle modernen SSM-Architekturen.
Häufige Fallstricke
S4 allein ist für Language schwächer als Transformer. Komplexe Mathematik (Diagonalisierung, Cauchy-Kernel). Von Mamba für Language überholt.
Entstehung & Geschichte
Gu et al. (Stanford, 2021) veröffentlichten S4 und dominierten Long-Range Arena. S4D (2022) vereinfachte die Parametrisierung. S5, H3 und Hyena folgten als Varianten. Mamba (2023) nutzte selektive SSMs und übertraf S4 für Language.
Abgrenzung & Vergleiche
S4 (Structured State Spaces for Sequences) vs. Mamba
S4 nutzt feste (zeitinvariante) SSM-Parameter; Mamba macht Parameter input-abhängig (selektiv) – Schlüsselinnovation für Language.