ALiBi (Attention with Linear Biases)
Eine Methode zur Positionskodierung, die lineare Biases direkt auf Attention-Scores addiert, statt Position-Embeddings zu lernen.
ALiBi kodiert Position durch lineare Attention-Biases – kein gelernter Parameter, natürliche Extrapolation zu längeren Kontexten.
Erklärung
ALiBi addiert einen negativen, linearen Bias proportional zur Distanz zwischen Query- und Key-Position. Je weiter entfernt, desto stärker wird die Attention gedämpft. Benötigt keine gelernten Parameter und extrapoliert natürlich zu längeren Kontexten als im Training gesehen.
Relevanz für Marketing
ALiBi war eine der ersten effizienten Extrapolationsmethoden und wird in BLOOM und MPT verwendet.
Häufige Fallstricke
Weniger verbreitet als RoPE in neueren Modellen. Lineare Bias-Annahme kann bei sehr langen Kontexten suboptimal sein.
Entstehung & Geschichte
Press et al. (2021) führten ALiBi ein und zeigten starke Extrapolation ohne Training auf langen Kontexten. BLOOM (BigScience, 2022) und MPT (MosaicML, 2023) nutzten ALiBi. RoPE hat ALiBi bei neueren Modellen (Llama, Mistral) weitgehend abgelöst.
Abgrenzung & Vergleiche
ALiBi (Attention with Linear Biases) vs. RoPE
RoPE rotiert Q/K-Vektoren (modifiziert Repräsentationen); ALiBi addiert Bias zu Scores (modifiziert Attention-Gewichte) – RoPE dominiert bei neueren LLMs.
ALiBi (Attention with Linear Biases) vs. Sinusoidal Positional Encoding
Sinusoidal addiert Embeddings zum Input; ALiBi modifiziert Attention-Scores direkt – kein zusätzlicher Speicher.