Durchsatz
Die Anzahl der Tokens oder Requests, die ein System pro Zeiteinheit verarbeiten kann – ein Schlüsselmaß für ML-Inference-Effizienz.
Throughput bestimmt Kosten pro Token. Bei High-Volume Marketing (Personalisierung, A/B-Tests) ist Throughput-Optimierung kritisch für ROI.
Erklärung
Throughput wird gemessen in: Tokens/Sekunde (für LLMs), Requests/Sekunde, oder Batches/Sekunde. Steigt mit Batch-Größe, sinkt mit Sequenzlänge. Trade-off: Höherer Throughput oft = höhere Latenz pro Request.
Relevanz für Marketing
Throughput bestimmt Kosten pro Token. Bei High-Volume Marketing (Personalisierung, A/B-Tests) ist Throughput-Optimierung kritisch für ROI.
Beispiel
GPT-4 API: ~100 Tokens/Sekunde pro Request. vLLM mit LLaMA-70B: 1000+ Tokens/Sekunde aggregiert über Batch.
Häufige Fallstricke
Throughput allein irreführend – Latenz zählt für UX. First-Token-Latency vs. Total-Generation-Time unterscheiden. Benchmark-Bedingungen beachten.
Entstehung & Geschichte
Durchsatz ist ein etablierter Begriff im Bereich Künstliche Intelligenz. Das Konzept hat sich mit der zunehmenden Bedeutung von KI und datengetriebenen Methoden weiterentwickelt.