Cross-Attention
Cross-Attention berechnet Attention zwischen zwei verschiedenen Sequenzen – z.B. zwischen Text-Conditioning und Bildgenerierung in Diffusionsmodellen.
Cross-Attention verbindet zwei Sequenzen – der Mechanismus, der Text-Prompts mit Bildgenerierung verknüpft und multimodale KI ermöglicht.
Erklärung
Queries kommen von einer Sequenz, Keys/Values von einer anderen. In Encoder-Decoder-Modellen: Decoder beachtet Encoder-Output. In Stable Diffusion: Bild-Latents (Query) beachten Text-Embeddings (Key/Value). Unterschied zu Self-Attention: dort kommen Q, K, V aus derselben Sequenz.
Relevanz für Marketing
Schlüsselmechanismus für multimodale KI: Verbindet Text mit Bild, Audio mit Text, Instruktionen mit Code.
Entstehung & Geschichte
Cross-Attention war Teil des Original-Transformers (Vaswani et al., 2017) als Encoder-Decoder-Attention. Stable Diffusion (2022) nutzte Cross-Attention für Text-to-Image-Conditioning und machte das Konzept in der generativen KI zentral. ControlNet und IP-Adapter bauen auf Cross-Attention auf.
Abgrenzung & Vergleiche
Cross-Attention vs. Self-Attention
Self-Attention: Q, K, V aus derselben Sequenz (interner Kontext); Cross-Attention: Q aus einer Sequenz, K/V aus einer anderen (externe Information).