Prefix Caching
Prefix Caching speichert KV-Cache-Berechnungen für häufig wiederverwendete Prompt-Prefixe (z.B. System Prompts) und teilt sie zwischen Requests.
Prefix Caching teilt KV-Cache-Berechnungen zwischen Requests mit gleichem System-Prompt – spart bis zu 90% Compute und Kosten bei wiederkehrenden Prompts.
Erklärung
Wenn 100 Requests denselben System-Prompt nutzen, wird dessen KV-Cache nur einmal berechnet und geteilt. Spart Compute proportional zur Prefix-Länge. Claude, GPT-4 und Gemini bieten Prompt Caching als API-Feature an.
Relevanz für Marketing
Senkt API-Kosten und Latenz drastisch bei wiederholten System-Prompts – besonders wertvoll für Chatbots, RAG und agentic Workflows.
Entstehung & Geschichte
vLLM implementierte Prefix Caching 2023 als Automatic Prefix Caching (APC). Anthropic führte Prompt Caching für Claude im August 2024 ein. Google folgte mit Context Caching für Gemini. OpenAI bot Cached Responses für GPT-4 an. 2025 ist Prefix Caching Standard bei allen großen LLM-APIs.
Abgrenzung & Vergleiche
Prefix Caching vs. Standard KV-Cache
Standard KV-Cache ist pro Request isoliert; Prefix Caching teilt Cache zwischen Requests mit gleichem Prefix.