Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz
    (Throughput)

    Durchsatz

    Auch bekannt als:
    Throughput
    Tokens pro Sekunde
    Requests pro Sekunde
    QPS
    Aktualisiert: 12.2.2026

    Die Anzahl der Tokens oder Requests, die ein System pro Zeiteinheit verarbeiten kann – ein Schlüsselmaß für ML-Inference-Effizienz.

    Kurz erklärt

    Throughput bestimmt Kosten pro Token. Bei High-Volume Marketing (Personalisierung, A/B-Tests) ist Throughput-Optimierung kritisch für ROI.

    Erklärung

    Throughput wird gemessen in: Tokens/Sekunde (für LLMs), Requests/Sekunde, oder Batches/Sekunde. Steigt mit Batch-Größe, sinkt mit Sequenzlänge. Trade-off: Höherer Throughput oft = höhere Latenz pro Request.

    Relevanz für Marketing

    Throughput bestimmt Kosten pro Token. Bei High-Volume Marketing (Personalisierung, A/B-Tests) ist Throughput-Optimierung kritisch für ROI.

    Beispiel

    GPT-4 API: ~100 Tokens/Sekunde pro Request. vLLM mit LLaMA-70B: 1000+ Tokens/Sekunde aggregiert über Batch.

    Häufige Fallstricke

    Throughput allein irreführend – Latenz zählt für UX. First-Token-Latency vs. Total-Generation-Time unterscheiden. Benchmark-Bedingungen beachten.

    Entstehung & Geschichte

    Durchsatz ist ein etablierter Begriff im Bereich Künstliche Intelligenz. Das Konzept hat sich mit der zunehmenden Bedeutung von KI und datengetriebenen Methoden weiterentwickelt.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!