Tensor Parallelism
Eine Parallelisierungsstrategie, die einzelne Tensor-Operationen (Matrixmultiplikationen) über mehrere GPUs aufteilt – notwendig für Schichten, die zu groß für eine GPU sind.
Tensor Parallelism teilt einzelne Matrixmultiplikationen über GPUs auf – ermöglicht Training und Inferenz von Modellen, deren Layer nicht auf eine GPU passen.
Erklärung
Megatron-LM (NVIDIA) teilt die Gewichtsmatrizen in Attention und FFN: Column Parallel für die erste Matrix, Row Parallel für die zweite. Erfordert schnelle GPU-Interconnects (NVLink). Kombiniert mit Data und Pipeline Parallelism für maximale Skalierung.
Relevanz für Marketing
Tensor Parallelism ist essentiell für das Training und die Inferenz von Modellen mit 100B+ Parametern – einzelne Layer passen nicht mehr auf eine GPU.
Beispiel
Llama-3 405B nutzt Tensor Parallelism über 8 GPUs pro Node: Die 12,288-dimensionalen FFN-Matrizen werden auf 8 GPUs verteilt, jede berechnet 1/8 der Ausgabe.
Häufige Fallstricke
Erfordert sehr schnelle GPU-Interconnects (NVLink). Hoher Kommunikations-Overhead über Nodes hinweg. Implementierung komplex. Nicht alle Operationen sind leicht teilbar.
Entstehung & Geschichte
Shoeybi et al. (NVIDIA, 2019) führten Tensor Parallelism in Megatron-LM ein. Die Technik wurde Standard für alle 100B+-Modelle. GPT-3, PaLM und Llama-3 nutzen Tensor Parallelism als Kern-Strategie.
Abgrenzung & Vergleiche
Tensor Parallelism vs. Pipeline Parallelism
Tensor Parallel teilt innerhalb einer Schicht (intra-layer); Pipeline Parallel teilt zwischen Schichten (inter-layer).