Stable Diffusion
Das führende Open-Source-Modell für Text-zu-Bild-Generierung, das lokale Ausführung und Fine-Tuning auf Consumer-Hardware ermöglicht.
Stable Diffusion ist das führende Open-Source-Bildgenerierungsmodell – läuft lokal, kann auf eigene Produkte trainiert werden, mit riesiger Community und 10.000+ Modellvarianten.
Erklärung
Stable Diffusion nutzt Latent Diffusion: Komprimiert Bilder, denoised im Latent Space = schneller, weniger VRAM. Versionen: SD 1.5 (Standard), SDXL (höhere Qualität), SD 3 (neueste). Community: 10K+ Fine-Tuned-Modelle.
Relevanz für Marketing
Stable Diffusion ist Standard für Custom-Image-Gen: Produkt-Mockups, Lifestyle-Bilder, Ad-Varianten. Fine-Tuning auf Markenprodukte möglich.
Beispiel
Eine Agentur fine-tuned SDXL auf Kundenprodukte: Generiert konsistente Produktbilder in verschiedenen Szenarien ohne Fotoshooting.
Häufige Fallstricke
Qualität unter DALL-E 3/Midjourney. Copyright-Kontroversen. Benötigt GPU für schnelle Generierung.
Entstehung & Geschichte
Stability AI veröffentlichte Stable Diffusion im August 2022 als Open Source – ein Wendepunkt für demokratisierte KI-Bildgenerierung. Basiert auf Latent Diffusion (Rombach et al., 2022). SD 1.5 wurde Community-Standard. SDXL (2023) verdoppelte Auflösung. SD 3 (2024) brachte Transformer-Architektur. Die Open-Source-Entscheidung löste eine Explosion von Tools, UIs und Fine-Tuned-Modellen aus.
Abgrenzung & Vergleiche
Stable Diffusion vs. DALL-E 3
DALL-E 3 ist Closed-Source mit besserer Prompt-Befolgung; Stable Diffusion ist Open-Source und lokal ausführbar.
Stable Diffusion vs. Midjourney
Midjourney bietet höhere ästhetische Qualität out-of-box; Stable Diffusion ermöglicht Fine-Tuning und volle Kontrolle.