Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (Causal Masking)

    Causal Masking (Kausale Maskierung)

    Auch bekannt als:
    Kausale Maskierung
    Autoregressive Maskierung
    Causal Attention Mask
    Dreiecksmaske
    Aktualisiert: 9.2.2026

    Causal Masking verhindert, dass Tokens auf zukünftige Positionen zugreifen – die Technik, die autoregressive Generierung in Decodern wie GPT ermöglicht.

    Kurz erklärt

    Causal Masking blockiert Zugriff auf zukünftige Tokens – die Dreiecksmatrix, die autoregressive Textgenerierung in GPT, LLaMA und allen Decodern ermöglicht.

    Erklärung

    Eine untere Dreiecksmatrix maskiert die Attention-Scores: Position t kann nur Positionen 1...t sehen. Ohne Causal Masking könnte das Modell "schummeln" und die Antwort aus zukünftigen Tokens ablesen. Ist in allen GPT-artigen Modellen (Decoder-Only) aktiv.

    Relevanz für Marketing

    Fundamentales Konzept hinter jedem LLM: Ohne Causal Masking wäre autoregressive Textgenerierung unmöglich.

    Entstehung & Geschichte

    Masked Self-Attention wurde im Original-Transformer (Vaswani et al., 2017) für den Decoder eingeführt. GPT-1 (2018) nutzte ausschließlich Causal Masking (Decoder-Only-Architektur). BERT nutzt im Gegensatz dazu bidirektionale Attention ohne Causal Mask.

    Abgrenzung & Vergleiche

    Causal Masking (Kausale Maskierung) vs. Bidirektionale Attention (BERT)

    Causal Masking: nur vorherige Tokens sichtbar (Generierung); Bidirektional: alle Tokens sichtbar (Verständnis, aber keine Generierung).

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!