Künstliche Intelligenz

Latent Diffusion

Auch bekannt als:

Latente Diffusion

LDM

Latent Diffusion Model

Aktualisiert: 10.2.2026

Latent Diffusion führt den Diffusionsprozess im komprimierten Latent Space statt im Pixel-Space durch – 10-100x schneller bei vergleichbarer Qualität.

Kurz erklärt

Latent Diffusion komprimiert Bilder vor dem Denoising in einen Latent Space – macht Bildgenerierung 10-100x schneller und ermöglicht Stable Diffusion auf Consumer-GPUs.

Erklärung

Ein VAE-Encoder komprimiert Bilder (z.B. 512×512 → 64×64 Latent). Diffusion arbeitet im Latent Space. Ein VAE-Decoder rekonstruiert das finale Bild. Diese Architektur macht Stable Diffusion, DALL-E und Flux möglich auf Consumer-Hardware.

Relevanz für Marketing

Latent Diffusion ist die Schlüsselinnovation, die Bildgenerierung demokratisiert hat – ohne sie wäre Text-to-Image auf Supercomputern beschränkt.

Beispiel

Stable Diffusion komprimiert ein 512×512 Bild auf 64×64 Latent, denoised dort in 20-50 Schritten und dekodiert zurück – statt direkt in 512×512 zu arbeiten.

Häufige Fallstricke

VAE-Decoder kann feine Details verlieren. Latent Space hat endliche Kapazität. VAE-Training beeinflusst Endqualität stark.

Entstehung & Geschichte

Rombach, Blattmann et al. (LMU München/Stability AI) veröffentlichten "High-Resolution Image Synthesis with Latent Diffusion Models" im Dezember 2021. Das Paper kombinierte VAEs mit Diffusion und ermöglichte erstmals hochauflösende Bildgenerierung auf einer einzigen GPU. Stable Diffusion (August 2022) basiert direkt auf dieser Architektur.

Abgrenzung & Vergleiche

Latent Diffusion vs. Pixel-Space Diffusion

Latent Diffusion arbeitet im komprimierten Raum (schnell, effizient); Pixel-Space Diffusion direkt auf Pixeln (langsam, qualitativ vergleichbar).

Latent Diffusion vs. VAE

VAE ist eine Komponente von Latent Diffusion (der Encoder/Decoder); Latent Diffusion ist das Gesamtsystem mit Diffusion im Latent Space.