GGUF
Ein Dateiformat für quantisierte LLM-Gewichte, das von llama.cpp entwickelt wurde und effiziente Inference auf CPU und Consumer-GPUs ermöglicht.
GGUF ist das Standard-Format für quantisierte LLMs – ein File, läuft auf CPU/GPU, ideal für lokale Nutzung.
Erklärung
GGUF speichert Modellgewichte in verschiedenen Quantisierungsstufen (Q4_K_M, Q5_K_S, Q8_0, etc.) mit Metadaten. Ersetzt das ältere GGML-Format. Vorteile: Single-File-Distribution, Self-Contained-Metadata, effizientes Memory-Mapping.
Relevanz für Marketing
GGUF ist Standard für lokale LLM-Deployment. Marketing-Teams können Modelle von HuggingFace laden und lokal mit Ollama oder llama.cpp nutzen.
Beispiel
TheBloke bietet fast alle populären Modelle als GGUF auf HuggingFace: llama-2-7b-chat.Q4_K_M.gguf (~4GB) läuft auf 8GB RAM.
Häufige Fallstricke
Quantisierungs-Level-Wahl erfordert Experiment (Q4 vs Q5 vs Q8). Nicht alle Modelle haben GGUF-Versionen. Performance variiert stark nach Hardware.
Entstehung & Geschichte
GGUF wurde August 2023 von Georgi Gerganov (llama.cpp) als Nachfolger von GGML eingeführt. Bietet bessere Metadata-Handling und Erweiterbarkeit.
Abgrenzung & Vergleiche
GGUF vs. GPTQ
GPTQ ist GPU-only und braucht CUDA; GGUF läuft auf CPU und GPU, ist flexibler für Consumer-Hardware.
GGUF vs. AWQ
AWQ ist GPU-optimiert mit Activation-Aware Quantization; GGUF ist breiter kompatibel (CPU + GPU).