Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Prefix Caching

    Auch bekannt als:
    Prompt Caching
    System-Prompt-Cache
    Präfix-Cache
    Shared Prefix
    Aktualisiert: 9.2.2026

    Prefix Caching speichert KV-Cache-Berechnungen für häufig wiederverwendete Prompt-Prefixe (z.B. System Prompts) und teilt sie zwischen Requests.

    Kurz erklärt

    Prefix Caching teilt KV-Cache-Berechnungen zwischen Requests mit gleichem System-Prompt – spart bis zu 90% Compute und Kosten bei wiederkehrenden Prompts.

    Erklärung

    Wenn 100 Requests denselben System-Prompt nutzen, wird dessen KV-Cache nur einmal berechnet und geteilt. Spart Compute proportional zur Prefix-Länge. Claude, GPT-4 und Gemini bieten Prompt Caching als API-Feature an.

    Relevanz für Marketing

    Senkt API-Kosten und Latenz drastisch bei wiederholten System-Prompts – besonders wertvoll für Chatbots, RAG und agentic Workflows.

    Entstehung & Geschichte

    vLLM implementierte Prefix Caching 2023 als Automatic Prefix Caching (APC). Anthropic führte Prompt Caching für Claude im August 2024 ein. Google folgte mit Context Caching für Gemini. OpenAI bot Cached Responses für GPT-4 an. 2025 ist Prefix Caching Standard bei allen großen LLM-APIs.

    Abgrenzung & Vergleiche

    Prefix Caching vs. Standard KV-Cache

    Standard KV-Cache ist pro Request isoliert; Prefix Caching teilt Cache zwischen Requests mit gleichem Prefix.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!