LoRA (Low-Rank Adaptation)
Eine effiziente Fine-Tuning-Methode, die nur kleine Adapter-Matrizen trainiert statt das gesamte Modell, wodurch Speicher und Trainingskosten drastisch sinken.
LoRA ermöglicht kosteneffizientes Fine-Tuning, indem nur kleine Adapter-Matrizen (0.1-1% Parameter) trainiert werden – ideal für Custom-Modelle in Text und Bildgenerierung ohne GPU-Cluster.
Erklärung
LoRA friert das Basis-Modell ein und trainiert nur kleine Low-Rank-Matrizen (oft nur 0.1-1% der Originalparameter). Diese Adapter können als separate Dateien gespeichert und dynamisch geladen werden. Mehrere LoRAs können kombiniert werden. In der Bildgenerierung ermöglicht LoRA das Training eigener Stile, Produkte oder Charaktere auf Modellen wie Flux und Stable Diffusion – ein entscheidender Workflow für Brand-spezifische Visuals.
Relevanz für Marketing
Marketing-Teams können Modelle auf Brand Voice, Produktkataloge oder visuelle Stile fine-tunen – sowohl für Text (LLMs) als auch für Bildgenerierung (Flux, Stable Diffusion). LoRAs sind portabel und kombinierbar.
Beispiel
Ein E-Commerce-Team trainiert ein Flux-LoRA auf 30 Produktfotos und generiert anschließend hunderte Varianten in verschiedenen Szenen und Seitenverhältnissen – ohne Fotostudio.
Häufige Fallstricke
Zu niedriger Rank limitiert Lernkapazität. LoRA-Stacking kann instabil sein. In der Bildgenerierung: Zu wenige oder qualitativ schlechte Trainingsbilder führen zu Artefakten.
Entstehung & Geschichte
LoRA wurde 2021 von Microsoft Research (Hu et al.) vorgestellt. Die Methode revolutionierte das Fine-Tuning und machte Modell-Anpassung für kleine Teams erschwinglich. QLoRA (2023) erweiterte die Effizienz weiter. Seit 2024 ist LoRA auch in der Bildgenerierung Standard – Flux und Stable Diffusion nutzen LoRA-Adapter für Stil- und Produkt-Training.
Abgrenzung & Vergleiche
LoRA (Low-Rank Adaptation) vs. Full Fine-Tuning
Full Fine-Tuning aktualisiert alle Parameter (100%); LoRA nur 0.1-1% in Adapter-Matrizen, bei oft vergleichbarer Qualität.
LoRA (Low-Rank Adaptation) vs. QLoRA
QLoRA kombiniert Quantization mit LoRA für noch geringeren Speicherverbrauch: 70B-Modelle auf einzelner GPU trainierbar.