Residual Connection (Skip Connection)
Residual Connections addieren den Input einer Schicht zu ihrem Output, sodass Gradienten direkt durch tiefe Netzwerke fließen können.
Residual Connections addieren Input zu Output (y = f(x) + x) – der Trick, der Training tiefer Netzwerke von ResNet bis GPT erst möglich macht.
Erklärung
Formel: output = Layer(x) + x. Die Addition schafft einen "Shortcut" für Gradienten. Ohne Residual Connections leiden tiefe Netzwerke (50+ Schichten) unter Vanishing Gradients. In Transformern: nach jeder Attention- und FFN-Schicht, kombiniert mit Layer Normalization.
Relevanz für Marketing
Ohne Residual Connections wären weder tiefe CNNs (ResNet) noch Transformer mit 100+ Schichten trainierbar.
Häufige Fallstricke
Dimensionen müssen übereinstimmen (oder Projektion nötig). Kombination mit Normalization kritisch (Pre-LN vs Post-LN). Können Feature-Reuse limitieren.
Entstehung & Geschichte
He et al. (Microsoft, 2015) führten Residual Connections in ResNet ein und gewannen ImageNet. Das Transformer-Paper (2017) übernahm das Konzept als "Add & Norm" nach jeder Sub-Layer. Heute Standard in jeder Deep-Learning-Architektur.
Abgrenzung & Vergleiche
Residual Connection (Skip Connection) vs. Dense Connections (DenseNet)
Residual addiert Input einmal; DenseNet konkateniert Outputs aller vorherigen Schichten – mehr Feature-Reuse, aber deutlich mehr Speicher.