Textual Inversion
Textual Inversion lernt ein neues Wort-Embedding für ein Konzept aus wenigen Bildern, ohne das Diffusionsmodell selbst zu verändern.
Textual Inversion lehrt Diffusionsmodellen neue Konzepte über ein einziges Token-Embedding – die leichteste Form der Personalisierung ohne Modellveränderung.
Erklärung
Ein Platzhalter-Token (z.B. "<mein-stil>") wird im Text-Encoder-Embedding-Space optimiert, um ein visuelles Konzept zu repräsentieren. Das Modell bleibt unverändert, nur ein kleiner Embedding-Vektor wird gelernt.
Relevanz für Marketing
Leichtgewichtigste Personalisierung: Keine GPU-intensive Model-Modifikation. Embeddings sind nur wenige KB groß und einfach teilbar.
Häufige Fallstricke
Niedrigere Qualität als DreamBooth/LoRA. Kann nur Style/Konzept lernen, nicht exakte Identitäten. Training braucht sorgfältige Bildauswahl.
Entstehung & Geschichte
Gal et al. (2022) stellten Textual Inversion als erste Personalisierungsmethode für Text-to-Image vor. Die Community baute eine Bibliothek von Tausenden Embeddings auf Civitai. DreamBooth und LoRA überholten TI in Qualität, aber TI bleibt für Stiltransfer nützlich.
Abgrenzung & Vergleiche
Textual Inversion vs. DreamBooth
DreamBooth trainiert Modellgewichte (höhere Qualität); Textual Inversion lernt nur ein Embedding (leichter, weniger präzise).
Textual Inversion vs. LoRA
LoRA trainiert Low-Rank-Adapter (guter Kompromiss); Textual Inversion ist noch leichter aber mit geringerer Treue.