Chunking
Die Aufteilung großer Dokumente in kleinere, semantisch kohärente Textabschnitte für effizientes Embedding und Retrieval in RAG-Systemen.
Chunking teilt Dokumente in optimale Textabschnitte für RAG – die richtige Chunk-Größe entscheidet über Retrieval-Qualität und Antwort-Präzision.
Erklärung
Chunking-Strategien: Fixed-Size (einfach, aber kann Kontext zerstören), Semantic (nutzt NLP für natürliche Grenzen), Recursive (hierarchische Aufteilung), Sentence-Window (Überlappung für Kontext). Die Chunk-Größe beeinflusst Präzision vs. Kontext-Trade-off: kleine Chunks = präzise Matches, wenig Kontext; große Chunks = mehr Kontext, unpräzisere Suche.
Relevanz für Marketing
Chunking ist entscheidend für RAG-Qualität im Marketing. Falsche Chunk-Größe führt zu irrelevanten oder aus dem Kontext gerissenen Antworten. Best Practice: 200-500 Tokens mit 10-20% Überlappung für Marketing-Content.
Beispiel
Ein Knowledge-GPT für Produkt-FAQs: Kleine Chunks (1-2 Sätze) für faktische Fragen ("Was kostet X?"), größere Chunks (1-2 Absätze) für konzeptuelle Fragen ("Wie funktioniert unser Onboarding?").
Häufige Fallstricke
One-Size-Fits-All Chunking für verschiedene Content-Typen. Keine Überlappung führt zu Kontextverlust. Zu kleine Chunks zerstören Zusammenhang. Metadaten (Titel, Kapitel) nicht in Chunks integriert.
Entstehung & Geschichte
Text-Segmentierung existiert seit klassischer NLP. Mit RAG (2020+) wurde Chunking kritisch: LangChain und LlamaIndex popularisierten verschiedene Strategien (fixed, recursive, semantic). 2024 gewannen kontextbewusste und hierarchische Ansätze an Bedeutung.
Abgrenzung & Vergleiche
Chunking vs. Tokenization
Tokenization zerlegt Text in Sub-Wort-Einheiten für LLM-Input; Chunking teilt Dokumente in semantisch kohärente Abschnitte für Retrieval.
Chunking vs. Summarization
Summarization kondensiert Information; Chunking erhält den Originaltext, macht ihn nur retrievebar.