Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Chunking

    Auch bekannt als:
    Text-Chunking
    Dokumentenaufteilung
    Segmentierung
    Splitting
    Aktualisiert: 8.2.2026

    Die Aufteilung großer Dokumente in kleinere, semantisch kohärente Textabschnitte für effizientes Embedding und Retrieval in RAG-Systemen.

    Kurz erklärt

    Chunking teilt Dokumente in optimale Textabschnitte für RAG – die richtige Chunk-Größe entscheidet über Retrieval-Qualität und Antwort-Präzision.

    Erklärung

    Chunking-Strategien: Fixed-Size (einfach, aber kann Kontext zerstören), Semantic (nutzt NLP für natürliche Grenzen), Recursive (hierarchische Aufteilung), Sentence-Window (Überlappung für Kontext). Die Chunk-Größe beeinflusst Präzision vs. Kontext-Trade-off: kleine Chunks = präzise Matches, wenig Kontext; große Chunks = mehr Kontext, unpräzisere Suche.

    Relevanz für Marketing

    Chunking ist entscheidend für RAG-Qualität im Marketing. Falsche Chunk-Größe führt zu irrelevanten oder aus dem Kontext gerissenen Antworten. Best Practice: 200-500 Tokens mit 10-20% Überlappung für Marketing-Content.

    Beispiel

    Ein Knowledge-GPT für Produkt-FAQs: Kleine Chunks (1-2 Sätze) für faktische Fragen ("Was kostet X?"), größere Chunks (1-2 Absätze) für konzeptuelle Fragen ("Wie funktioniert unser Onboarding?").

    Häufige Fallstricke

    One-Size-Fits-All Chunking für verschiedene Content-Typen. Keine Überlappung führt zu Kontextverlust. Zu kleine Chunks zerstören Zusammenhang. Metadaten (Titel, Kapitel) nicht in Chunks integriert.

    Entstehung & Geschichte

    Text-Segmentierung existiert seit klassischer NLP. Mit RAG (2020+) wurde Chunking kritisch: LangChain und LlamaIndex popularisierten verschiedene Strategien (fixed, recursive, semantic). 2024 gewannen kontextbewusste und hierarchische Ansätze an Bedeutung.

    Abgrenzung & Vergleiche

    Chunking vs. Tokenization

    Tokenization zerlegt Text in Sub-Wort-Einheiten für LLM-Input; Chunking teilt Dokumente in semantisch kohärente Abschnitte für Retrieval.

    Chunking vs. Summarization

    Summarization kondensiert Information; Chunking erhält den Originaltext, macht ihn nur retrievebar.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!