Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Time-to-First-Token (TTFT)

    Auch bekannt als:
    TTFT
    First Token Latency
    Prompt-Verarbeitungszeit
    Initial Response Time
    Aktualisiert: 12.2.2026

    Die Zeit von der Anfrage bis zum ersten generierten Token – kritisch für die wahrgenommene Responsivität von AI-Anwendungen.

    Kurz erklärt

    TTFT bestimmt "Snappiness" von Chatbots. User erwarten <500ms. Bei RAG mit langen Kontexten kann TTFT mehrere Sekunden betragen – UX-Killer.

    Erklärung

    TTFT = Prompt-Encoding + First Token Generation. Bei langen Prompts dominiert Encoding-Zeit. Wird durch Prompt-Caching, Prefix-Caching, oder kleinere Modelle optimiert. Unterschiedlich von Token-Throughput.

    Relevanz für Marketing

    TTFT bestimmt "Snappiness" von Chatbots. User erwarten <500ms. Bei RAG mit langen Kontexten kann TTFT mehrere Sekunden betragen – UX-Killer.

    Beispiel

    Ein Chatbot mit 2s TTFT fühlt sich langsam an, auch wenn Token dann schnell fließen. Streaming hilft nur bedingt – User warten auf ersten Token.

    Häufige Fallstricke

    Lange System-Prompts erhöhen TTFT. RAG-Retrieval vor TTFT-Messung. Caching hilft nur bei wiederholten Präfixen.

    Entstehung & Geschichte

    Time-to-First-Token (TTFT) ist ein etablierter Begriff im Bereich Künstliche Intelligenz. Das Konzept hat sich mit der zunehmenden Bedeutung von KI und datengetriebenen Methoden weiterentwickelt.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!