State Space Model (SSM)
Eine Klasse von Sequenzmodellen basierend auf kontinuierlicher Zustandsraum-Theorie, die lineare Skalierung O(N) statt quadratischer Attention O(N²) bieten.
State Space Models modellieren Sequenzen als dynamisches System mit O(N)-Skalierung – die theoretische Basis für Mamba und Transformer-Alternativen.
Erklärung
SSMs modellieren Sequenzen als lineares dynamisches System: x'(t) = Ax(t) + Bu(t), y(t) = Cx(t). Durch Diskretisierung und spezielle Parametrisierung (HiPPO, S4) können sie lange Dependencies effizient erfassen. Mamba erweitert dies durch selektive Mechanismen.
Relevanz für Marketing
SSMs sind die vielversprechendste Transformer-Alternative für Aufgaben mit extrem langen Sequenzen (Audio, Genomik, Zeitreihen).
Häufige Fallstricke
Noch nicht vollständig Transformer-Parität bei Language Tasks. Weniger mature Tooling und Community. Training-Instabilitäten bei naiver Implementierung.
Entstehung & Geschichte
Gu et al. führten HiPPO (2020) und S4 (2021) ein. S4 zeigte erstmals State-of-the-Art auf Long-Range-Benchmarks. Mamba (2023) machte SSMs durch Selective Mechanisms für Language kompetitiv. Mamba-2 und Jamba (2024) näherten sich Transformer-Qualität.
Abgrenzung & Vergleiche
State Space Model (SSM) vs. Transformer
Transformer nutzen Attention (O(N²), starke Qualität); SSMs nutzen Recurrence (O(N), effizienter bei langen Sequenzen, aber Qualitäts-Gap).
State Space Model (SSM) vs. RNN/LSTM
RNNs haben Vanishing Gradient; SSMs lösen dies durch HiPPO-Initialisierung und können parallel trainiert werden (als Convolution).