Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Continuous Batching

    Auch bekannt als:
    Dynamisches Batching
    In-Flight Batching
    Iteration-Level Batching
    Aktualisiert: 9.2.2026

    Eine Serving-Technik, die neue Requests in laufende Batches einfügt, sobald andere Requests abgeschlossen sind, statt auf Batch-Completion zu warten.

    Kurz erklärt

    Continuous Batching füllt GPU-Slots sofort nach – 2-5x höherer Inference-Throughput.

    Erklärung

    Bei statischem Batching warten kurze Requests auf lange. Continuous Batching fügt sofort neue Requests ein, wenn Slots frei werden. Resultat: Höherer GPU-Throughput, niedrigere Latenz für kurze Requests, bessere Auslastung.

    Relevanz für Marketing

    Continuous Batching ist Standard in modernen Inference-Servern (vLLM, TGI). Ermöglicht 2-5x höheren Durchsatz für Produktions-LLM-APIs.

    Beispiel

    vLLM mit Continuous Batching erreicht ~2000 Tokens/s auf A100, verglichen mit ~500 Tokens/s bei statischem Batching (gleiches Modell).

    Häufige Fallstricke

    Erfordert KV-Cache-Management (PagedAttention). Komplexere Implementierung als statisches Batching. Memory-Fragmentation bei vielen kurzen Requests.

    Entstehung & Geschichte

    Continuous Batching wurde 2022-2023 durch Orca (Microsoft) und vLLM (UC Berkeley) populär. Ist jetzt Standard für Produktions-LLM-Serving.

    Abgrenzung & Vergleiche

    Continuous Batching vs. Static Batching

    Static Batching wartet auf alle Requests im Batch; Continuous fügt sofort neue ein, wenn Slots frei werden.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!