Continuous Batching
Eine Serving-Technik, die neue Requests in laufende Batches einfügt, sobald andere Requests abgeschlossen sind, statt auf Batch-Completion zu warten.
Continuous Batching füllt GPU-Slots sofort nach – 2-5x höherer Inference-Throughput.
Erklärung
Bei statischem Batching warten kurze Requests auf lange. Continuous Batching fügt sofort neue Requests ein, wenn Slots frei werden. Resultat: Höherer GPU-Throughput, niedrigere Latenz für kurze Requests, bessere Auslastung.
Relevanz für Marketing
Continuous Batching ist Standard in modernen Inference-Servern (vLLM, TGI). Ermöglicht 2-5x höheren Durchsatz für Produktions-LLM-APIs.
Beispiel
vLLM mit Continuous Batching erreicht ~2000 Tokens/s auf A100, verglichen mit ~500 Tokens/s bei statischem Batching (gleiches Modell).
Häufige Fallstricke
Erfordert KV-Cache-Management (PagedAttention). Komplexere Implementierung als statisches Batching. Memory-Fragmentation bei vielen kurzen Requests.
Entstehung & Geschichte
Continuous Batching wurde 2022-2023 durch Orca (Microsoft) und vLLM (UC Berkeley) populär. Ist jetzt Standard für Produktions-LLM-Serving.
Abgrenzung & Vergleiche
Continuous Batching vs. Static Batching
Static Batching wartet auf alle Requests im Batch; Continuous fügt sofort neue ein, wenn Slots frei werden.