Seq2Seq
Eine Modellarchitektur, die eine Eingabe-Sequenz in eine Ausgabe-Sequenz variabler Länge transformiert.
Seq2Seq transformiert Eingabe-Sequenzen in Ausgabe-Sequenzen – die Architektur hinter Übersetzung, Summarization und T5.
Erklärung
Seq2Seq besteht aus einem Encoder (versteht den Input) und einem Decoder (generiert den Output). Ursprünglich mit RNNs, heute meist mit Transformern.
Relevanz für Marketing
Seq2Seq ist die Architektur hinter maschineller Übersetzung, Summarization, Chatbots und vielen NLP-Generierungsaufgaben.
Beispiel
T5 (Text-to-Text Transfer Transformer) behandelt alle NLP-Aufgaben als Seq2Seq: Input-Text → Output-Text.
Häufige Fallstricke
Information Bottleneck im Fixed-Size Encoder State (gelöst durch Attention). Exposure Bias beim Training. Schwächen bei sehr langen Sequenzen.
Entstehung & Geschichte
Sutskever et al. (Google, 2014) veröffentlichten das erste Seq2Seq Paper für Machine Translation. Bahdanau (2015) fügte Attention hinzu. Der Transformer (2017) ersetzte RNNs. T5 (2020) vereinheitlichte alle NLP-Tasks als Text-to-Text Seq2Seq.
Abgrenzung & Vergleiche
Seq2Seq vs. Decoder-Only (GPT)
Seq2Seq hat Encoder + Decoder (gut für Transformation). Decoder-only Modelle (GPT) haben nur den Decoder (gut für offene Generierung).
Seq2Seq vs. Encoder-Only (BERT)
BERT hat nur den Encoder (gut für Verständnis/Klassifikation). Seq2Seq hat beides und kann generieren.