Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Cross-Attention

    Auch bekannt als:
    Kreuz-Attention
    Encoder-Decoder Attention
    Cross-Modal Attention
    Aktualisiert: 9.2.2026

    Cross-Attention berechnet Attention zwischen zwei verschiedenen Sequenzen – z.B. zwischen Text-Conditioning und Bildgenerierung in Diffusionsmodellen.

    Kurz erklärt

    Cross-Attention verbindet zwei Sequenzen – der Mechanismus, der Text-Prompts mit Bildgenerierung verknüpft und multimodale KI ermöglicht.

    Erklärung

    Queries kommen von einer Sequenz, Keys/Values von einer anderen. In Encoder-Decoder-Modellen: Decoder beachtet Encoder-Output. In Stable Diffusion: Bild-Latents (Query) beachten Text-Embeddings (Key/Value). Unterschied zu Self-Attention: dort kommen Q, K, V aus derselben Sequenz.

    Relevanz für Marketing

    Schlüsselmechanismus für multimodale KI: Verbindet Text mit Bild, Audio mit Text, Instruktionen mit Code.

    Entstehung & Geschichte

    Cross-Attention war Teil des Original-Transformers (Vaswani et al., 2017) als Encoder-Decoder-Attention. Stable Diffusion (2022) nutzte Cross-Attention für Text-to-Image-Conditioning und machte das Konzept in der generativen KI zentral. ControlNet und IP-Adapter bauen auf Cross-Attention auf.

    Abgrenzung & Vergleiche

    Cross-Attention vs. Self-Attention

    Self-Attention: Q, K, V aus derselben Sequenz (interner Kontext); Cross-Attention: Q aus einer Sequenz, K/V aus einer anderen (externe Information).

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!