Layer Dropping
Eine Komprimierungstechnik, die ganze Transformer-Layer aus einem trainierten Modell entfernt – der einfachste Weg, ein LLM kleiner und schneller zu machen.
Layer Dropping entfernt ganze Transformer-Layer – der einfachste Weg, LLMs um 20-30% zu beschleunigen bei nur 2-5% Qualitätsverlust.
Erklärung
Studien zeigen, dass viele mittlere Transformer-Layer redundant sind und entfernt werden können mit <5% Qualitätsverlust. Die ersten und letzten Layer sind kritischer. Layer Dropping kann ohne Retraining funktionieren oder mit kurzem Fine-Tuning verbessert werden.
Relevanz für Marketing
Layer Dropping ist die "Brute Force"-Methode der LLM-Kompression: Entferne 25% der Layer, verliere 2-5% Qualität, spare 25% Inferenz-Kosten. Ideal für erste schnelle Optimierungen.
Beispiel
Men et al. (2024) zeigten, dass Llama-2 70B mit 20% weniger Layern (56→45) nur 3% Qualität verliert – sofort 20% schneller und günstiger.
Häufige Fallstricke
Nicht alle Layer gleich entfernbar – erste/letzte Layer sind kritisch. Stärker betroffen sind Reasoning- und Math-Tasks. Ohne Fine-Tuning unvorhersehbare Qualitätsverluste möglich.
Entstehung & Geschichte
Fan et al. (2019) untersuchten Layer Dropping für effizientes Transformer-Training. Sajjad et al. (2023) zeigten, dass BERT-Layer systematisch entfernbar sind. Men et al. (2024, "ShortGPT") demonstrierten dies für LLMs.
Abgrenzung & Vergleiche
Layer Dropping vs. Structured Pruning
Structured Pruning entfernt Attention Heads oder FFN-Dimensionen; Layer Dropping entfernt ganze Layer – gröber, aber einfacher umzusetzen.
Layer Dropping vs. Knowledge Distillation
Distillation trainiert ein neues Modell; Layer Dropping modifiziert das existierende Modell durch Entfernen von Schichten.