Causal Masking (Kausale Maskierung)
Causal Masking verhindert, dass Tokens auf zukünftige Positionen zugreifen – die Technik, die autoregressive Generierung in Decodern wie GPT ermöglicht.
Causal Masking blockiert Zugriff auf zukünftige Tokens – die Dreiecksmatrix, die autoregressive Textgenerierung in GPT, LLaMA und allen Decodern ermöglicht.
Erklärung
Eine untere Dreiecksmatrix maskiert die Attention-Scores: Position t kann nur Positionen 1...t sehen. Ohne Causal Masking könnte das Modell "schummeln" und die Antwort aus zukünftigen Tokens ablesen. Ist in allen GPT-artigen Modellen (Decoder-Only) aktiv.
Relevanz für Marketing
Fundamentales Konzept hinter jedem LLM: Ohne Causal Masking wäre autoregressive Textgenerierung unmöglich.
Entstehung & Geschichte
Masked Self-Attention wurde im Original-Transformer (Vaswani et al., 2017) für den Decoder eingeführt. GPT-1 (2018) nutzte ausschließlich Causal Masking (Decoder-Only-Architektur). BERT nutzt im Gegensatz dazu bidirektionale Attention ohne Causal Mask.
Abgrenzung & Vergleiche
Causal Masking (Kausale Maskierung) vs. Bidirektionale Attention (BERT)
Causal Masking: nur vorherige Tokens sichtbar (Generierung); Bidirektional: alle Tokens sichtbar (Verständnis, aber keine Generierung).