LSTM (Long Short-Term Memory)
LSTM ist eine RNN-Variante mit Gate-Mechanismen (Forget, Input, Output Gate), die das Lernen von Langzeitabhängigkeiten in Sequenzen ermöglicht.
LSTMs lösten das Vanishing-Gradient-Problem von RNNs mit Gate-Mechanismen – die dominierende Sequenz-Architektur vor Transformern.
Erklärung
Die Gates kontrollieren, welche Information behalten, hinzugefügt oder ausgegeben wird. Dies löst das Vanishing-Gradient-Problem von Vanilla-RNNs. LSTMs dominierten Sprachverarbeitung von 2014-2017, bis Transformer sie ablösten.
Relevanz für Marketing
Historisch zentral für NLP und Zeitreihen. Verständnis hilft, den Transformers-Vorteil zu erklären.
Entstehung & Geschichte
Hochreiter & Schmidhuber (1997) erfanden LSTM. Es dauerte bis ca. 2014, bis LSTMs durch GPU-Training zum Standard für NLP, Übersetzung und Spracherkennung wurden. Google Translate nutzte 2016 ein LSTM-System. Transformer (2017) lösten LSTMs für die meisten Aufgaben ab.
Abgrenzung & Vergleiche
LSTM (Long Short-Term Memory) vs. GRU
LSTM hat 3 Gates (komplexer, ausdrucksstärker); GRU hat 2 Gates (einfacher, schneller, ähnliche Performance).
LSTM (Long Short-Term Memory) vs. Transformer
LSTM verarbeitet sequenziell (O(n)); Transformer parallel mit Attention (O(1) Tiefe, aber O(n²) Attention). Transformer skalieren besser.