TensorRT-LLM
NVIDIAs optimierte Inference-Engine für LLMs, die maximale Performance auf NVIDIA-GPUs durch Kernel-Fusion, Quantisierung und Tensor-Parallelismus erreicht.
TensorRT-LLM = Maximum-Performance LLM-Serving auf NVIDIA GPUs – 2-3x schneller als Alternativen.
Erklärung
TensorRT-LLM kompiliert LLM-Modelle zu hochoptimierten GPU-Kernels. Features: FP8/INT8 Quantisierung, In-Flight Batching, Paged KV-Cache, Multi-GPU via Tensor Parallel. Erreicht höchste Tokens/s auf NVIDIA-Hardware.
Relevanz für Marketing
TensorRT-LLM ist die Wahl für maximale Performance auf NVIDIA-GPUs. Ideal für Enterprise-APIs und latenz-kritische Marketing-Anwendungen.
Beispiel
TensorRT-LLM kann Llama 3 70B auf H100 mit ~5000 Tokens/s ausliefern – 2-3x schneller als vLLM auf gleicher Hardware.
Häufige Fallstricke
Nur NVIDIA-GPUs (kein AMD/Intel). Komplexerer Build-Prozess als vLLM. Nicht alle Modelle sofort unterstützt. Erfordert NVIDIA-Treiber und CUDA.
Entstehung & Geschichte
TensorRT existiert seit 2017 für Deep Learning Inference. TensorRT-LLM wurde 2023 für LLMs optimiert und ist jetzt die offizielle NVIDIA-Lösung für LLM-Deployment.
Abgrenzung & Vergleiche
TensorRT-LLM vs. vLLM
vLLM ist einfacher zu nutzen und breiter kompatibel; TensorRT-LLM ist schneller auf NVIDIA-GPUs aber komplexer.