Künstliche Intelligenz

Chunking

Auch bekannt als:

Text-Chunking

Dokumentenaufteilung

Segmentierung

Splitting

Aktualisiert: 8.2.2026

Die Aufteilung großer Dokumente in kleinere, semantisch kohärente Textabschnitte für effizientes Embedding und Retrieval in RAG-Systemen.

Kurz erklärt

Chunking teilt Dokumente in optimale Textabschnitte für RAG – die richtige Chunk-Größe entscheidet über Retrieval-Qualität und Antwort-Präzision.

Erklärung

Chunking-Strategien: Fixed-Size (einfach, aber kann Kontext zerstören), Semantic (nutzt NLP für natürliche Grenzen), Recursive (hierarchische Aufteilung), Sentence-Window (Überlappung für Kontext). Die Chunk-Größe beeinflusst Präzision vs. Kontext-Trade-off: kleine Chunks = präzise Matches, wenig Kontext; große Chunks = mehr Kontext, unpräzisere Suche.

Relevanz für Marketing

Chunking ist entscheidend für RAG-Qualität im Marketing. Falsche Chunk-Größe führt zu irrelevanten oder aus dem Kontext gerissenen Antworten. Best Practice: 200-500 Tokens mit 10-20% Überlappung für Marketing-Content.

Beispiel

Ein Knowledge-GPT für Produkt-FAQs: Kleine Chunks (1-2 Sätze) für faktische Fragen ("Was kostet X?"), größere Chunks (1-2 Absätze) für konzeptuelle Fragen ("Wie funktioniert unser Onboarding?").

Häufige Fallstricke

One-Size-Fits-All Chunking für verschiedene Content-Typen. Keine Überlappung führt zu Kontextverlust. Zu kleine Chunks zerstören Zusammenhang. Metadaten (Titel, Kapitel) nicht in Chunks integriert.

Entstehung & Geschichte

Text-Segmentierung existiert seit klassischer NLP. Mit RAG (2020+) wurde Chunking kritisch: LangChain und LlamaIndex popularisierten verschiedene Strategien (fixed, recursive, semantic). 2024 gewannen kontextbewusste und hierarchische Ansätze an Bedeutung.

Abgrenzung & Vergleiche

Chunking vs. Tokenization

Tokenization zerlegt Text in Sub-Wort-Einheiten für LLM-Input; Chunking teilt Dokumente in semantisch kohärente Abschnitte für Retrieval.

Chunking vs. Summarization

Summarization kondensiert Information; Chunking erhält den Originaltext, macht ihn nur retrievebar.