Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Technologie
    (GGUF (GPT-Generated Unified Format))

    GGUF

    Auch bekannt als:
    GGUF-Format
    llama.cpp Format
    Aktualisiert: 9.2.2026

    Ein Dateiformat für quantisierte LLM-Gewichte, das von llama.cpp entwickelt wurde und effiziente Inference auf CPU und Consumer-GPUs ermöglicht.

    Kurz erklärt

    GGUF ist das Standard-Format für quantisierte LLMs – ein File, läuft auf CPU/GPU, ideal für lokale Nutzung.

    Erklärung

    GGUF speichert Modellgewichte in verschiedenen Quantisierungsstufen (Q4_K_M, Q5_K_S, Q8_0, etc.) mit Metadaten. Ersetzt das ältere GGML-Format. Vorteile: Single-File-Distribution, Self-Contained-Metadata, effizientes Memory-Mapping.

    Relevanz für Marketing

    GGUF ist Standard für lokale LLM-Deployment. Marketing-Teams können Modelle von HuggingFace laden und lokal mit Ollama oder llama.cpp nutzen.

    Beispiel

    TheBloke bietet fast alle populären Modelle als GGUF auf HuggingFace: llama-2-7b-chat.Q4_K_M.gguf (~4GB) läuft auf 8GB RAM.

    Häufige Fallstricke

    Quantisierungs-Level-Wahl erfordert Experiment (Q4 vs Q5 vs Q8). Nicht alle Modelle haben GGUF-Versionen. Performance variiert stark nach Hardware.

    Entstehung & Geschichte

    GGUF wurde August 2023 von Georgi Gerganov (llama.cpp) als Nachfolger von GGML eingeführt. Bietet bessere Metadata-Handling und Erweiterbarkeit.

    Abgrenzung & Vergleiche

    GGUF vs. GPTQ

    GPTQ ist GPU-only und braucht CUDA; GGUF läuft auf CPU und GPU, ist flexibler für Consumer-Hardware.

    GGUF vs. AWQ

    AWQ ist GPU-optimiert mit Activation-Aware Quantization; GGUF ist breiter kompatibel (CPU + GPU).

    Verwandte Services

    Verwandte Begriffe

    Quantisierungllama-cppOllamalocal-inference
    👋Fragen? Chatte mit uns!