Latent Diffusion
Latent Diffusion führt den Diffusionsprozess im komprimierten Latent Space statt im Pixel-Space durch – 10-100x schneller bei vergleichbarer Qualität.
Latent Diffusion komprimiert Bilder vor dem Denoising in einen Latent Space – macht Bildgenerierung 10-100x schneller und ermöglicht Stable Diffusion auf Consumer-GPUs.
Erklärung
Ein VAE-Encoder komprimiert Bilder (z.B. 512×512 → 64×64 Latent). Diffusion arbeitet im Latent Space. Ein VAE-Decoder rekonstruiert das finale Bild. Diese Architektur macht Stable Diffusion, DALL-E und Flux möglich auf Consumer-Hardware.
Relevanz für Marketing
Latent Diffusion ist die Schlüsselinnovation, die Bildgenerierung demokratisiert hat – ohne sie wäre Text-to-Image auf Supercomputern beschränkt.
Beispiel
Stable Diffusion komprimiert ein 512×512 Bild auf 64×64 Latent, denoised dort in 20-50 Schritten und dekodiert zurück – statt direkt in 512×512 zu arbeiten.
Häufige Fallstricke
VAE-Decoder kann feine Details verlieren. Latent Space hat endliche Kapazität. VAE-Training beeinflusst Endqualität stark.
Entstehung & Geschichte
Rombach, Blattmann et al. (LMU München/Stability AI) veröffentlichten "High-Resolution Image Synthesis with Latent Diffusion Models" im Dezember 2021. Das Paper kombinierte VAEs mit Diffusion und ermöglichte erstmals hochauflösende Bildgenerierung auf einer einzigen GPU. Stable Diffusion (August 2022) basiert direkt auf dieser Architektur.
Abgrenzung & Vergleiche
Latent Diffusion vs. Pixel-Space Diffusion
Latent Diffusion arbeitet im komprimierten Raum (schnell, effizient); Pixel-Space Diffusion direkt auf Pixeln (langsam, qualitativ vergleichbar).
Latent Diffusion vs. VAE
VAE ist eine Komponente von Latent Diffusion (der Encoder/Decoder); Latent Diffusion ist das Gesamtsystem mit Diffusion im Latent Space.