Question 1

Was ist ZeRO (Zero Redundancy Optimizer)?

Accepted Answer

Eine Memory-Optimierung für verteiltes Training, die Optimizer-States, Gradienten und Parameter über GPUs sharded statt repliziert – ermöglicht Training von Billionen-Parameter-Modellen. ZeRO hat 3 Stufen: ZeRO-1 (Optimizer-States sharden, 4x Memory-Reduktion), ZeRO-2 (+Gradienten, 8x), ZeRO-3 (+Parameter, linear skalierbar). ZeRO-Infinity erweitert dies auf CPU/NVMe. Jede GPU hält nur 1/N der Daten.

Question 2

Wie funktioniert ZeRO (Zero Redundancy Optimizer)?

Accepted Answer

ZeRO hat 3 Stufen: ZeRO-1 (Optimizer-States sharden, 4x Memory-Reduktion), ZeRO-2 (+Gradienten, 8x), ZeRO-3 (+Parameter, linear skalierbar). ZeRO-Infinity erweitert dies auf CPU/NVMe. Jede GPU hält nur 1/N der Daten.

Question 3

Warum ist ZeRO (Zero Redundancy Optimizer) wichtig für Marketing?

Accepted Answer

ZeRO revolutionierte LLM-Training: Ohne ZeRO wäre das Training von 100B+-Modellen auf Standard-GPU-Clustern unmöglich. Basis von DeepSpeed und PyTorch FSDP.

Question 4

Wie wird ZeRO (Zero Redundancy Optimizer) in der Praxis eingesetzt?

Accepted Answer

Training eines 13B-Modells: Ohne ZeRO braucht jede GPU ~52GB (Modell + Optimizer). Mit ZeRO-3 auf 8 GPUs braucht jede nur ~7GB – 8x effizienter.

Question 5

Was sind häufige Fehler bei ZeRO (Zero Redundancy Optimizer)?

Accepted Answer

ZeRO-3 hat höheren Kommunikations-Overhead als ZeRO-1/2. ZeRO-Infinity ist langsam (CPU/NVMe). Konfiguration nicht trivial (Stage-Wahl, Offloading-Optionen).

Question 6

Woher kommt ZeRO (Zero Redundancy Optimizer)?

Accepted Answer

Rajbhandari et al. (Microsoft, 2020) veröffentlichten ZeRO als Teil von DeepSpeed. ZeRO-Infinity (2021) erweiterte auf CPU/NVMe-Offloading. PyTorch FSDP (2022) implementierte ZeRO-3-ähnliche Funktionalität nativ. Heute ist ZeRO Standard für jedes LLM-Training.

ZeRO (Zero Redundancy Optimizer)

Erklärung

Relevanz für Marketing

Beispiel

Häufige Fallstricke

Entstehung & Geschichte

Abgrenzung & Vergleiche

ZeRO (Zero Redundancy Optimizer) vs. FSDP

ZeRO (Zero Redundancy Optimizer) vs. Data Parallelism (DDP)

Weiterführende Ressourcen

Verwandte Services

Verwandte Begriffe