Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Tensor Parallelism

    Auch bekannt als:
    Tensor-Parallelismus
    Intra-Layer Parallelism
    Megatron-Parallelismus
    Aktualisiert: 11.2.2026

    Eine Parallelisierungsstrategie, die einzelne Tensor-Operationen (Matrixmultiplikationen) über mehrere GPUs aufteilt – notwendig für Schichten, die zu groß für eine GPU sind.

    Kurz erklärt

    Tensor Parallelism teilt einzelne Matrixmultiplikationen über GPUs auf – ermöglicht Training und Inferenz von Modellen, deren Layer nicht auf eine GPU passen.

    Erklärung

    Megatron-LM (NVIDIA) teilt die Gewichtsmatrizen in Attention und FFN: Column Parallel für die erste Matrix, Row Parallel für die zweite. Erfordert schnelle GPU-Interconnects (NVLink). Kombiniert mit Data und Pipeline Parallelism für maximale Skalierung.

    Relevanz für Marketing

    Tensor Parallelism ist essentiell für das Training und die Inferenz von Modellen mit 100B+ Parametern – einzelne Layer passen nicht mehr auf eine GPU.

    Beispiel

    Llama-3 405B nutzt Tensor Parallelism über 8 GPUs pro Node: Die 12,288-dimensionalen FFN-Matrizen werden auf 8 GPUs verteilt, jede berechnet 1/8 der Ausgabe.

    Häufige Fallstricke

    Erfordert sehr schnelle GPU-Interconnects (NVLink). Hoher Kommunikations-Overhead über Nodes hinweg. Implementierung komplex. Nicht alle Operationen sind leicht teilbar.

    Entstehung & Geschichte

    Shoeybi et al. (NVIDIA, 2019) führten Tensor Parallelism in Megatron-LM ein. Die Technik wurde Standard für alle 100B+-Modelle. GPT-3, PaLM und Llama-3 nutzen Tensor Parallelism als Kern-Strategie.

    Abgrenzung & Vergleiche

    Tensor Parallelism vs. Pipeline Parallelism

    Tensor Parallel teilt innerhalb einer Schicht (intra-layer); Pipeline Parallel teilt zwischen Schichten (inter-layer).

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!