Time-to-First-Token (TTFT)
Die Zeit von der Anfrage bis zum ersten generierten Token – kritisch für die wahrgenommene Responsivität von AI-Anwendungen.
TTFT bestimmt "Snappiness" von Chatbots. User erwarten <500ms. Bei RAG mit langen Kontexten kann TTFT mehrere Sekunden betragen – UX-Killer.
Erklärung
TTFT = Prompt-Encoding + First Token Generation. Bei langen Prompts dominiert Encoding-Zeit. Wird durch Prompt-Caching, Prefix-Caching, oder kleinere Modelle optimiert. Unterschiedlich von Token-Throughput.
Relevanz für Marketing
TTFT bestimmt "Snappiness" von Chatbots. User erwarten <500ms. Bei RAG mit langen Kontexten kann TTFT mehrere Sekunden betragen – UX-Killer.
Beispiel
Ein Chatbot mit 2s TTFT fühlt sich langsam an, auch wenn Token dann schnell fließen. Streaming hilft nur bedingt – User warten auf ersten Token.
Häufige Fallstricke
Lange System-Prompts erhöhen TTFT. RAG-Retrieval vor TTFT-Messung. Caching hilft nur bei wiederholten Präfixen.
Entstehung & Geschichte
Time-to-First-Token (TTFT) ist ein etablierter Begriff im Bereich Künstliche Intelligenz. Das Konzept hat sich mit der zunehmenden Bedeutung von KI und datengetriebenen Methoden weiterentwickelt.