Skip to main content
    Zum Hauptinhalt springenZur Navigation springenZur Fußzeile springen
    Künstliche Intelligenz

    Weight Sharing

    Auch bekannt als:
    Gewichtsteilung
    Parameter Sharing
    Shared Weights
    Aktualisiert: 9.2.2026

    Eine Technik, bei der mehrere Teile eines neuronalen Netzes dieselben Gewichte verwenden – reduziert Parameteranzahl und Speicherverbrauch erheblich.

    Kurz erklärt

    Weight Sharing lässt mehrere Netzwerk-Teile dieselben Gewichte nutzen – ALBERT erreicht damit BERT-Qualität bei 18x weniger Parametern.

    Erklärung

    Weight Sharing ist fundamental in CNNs (Filter werden über das Bild geteilt) und Transformern (Embedding/Output-Layer teilen Gewichte). ALBERT nutzt Cross-Layer Weight Sharing für 18x kleinere Modelle.

    Relevanz für Marketing

    Weight Sharing ermöglicht kompaktere Modelle mit weniger Overfitting-Risiko. ALBERT bewies, dass cross-layer sharing BERT-Qualität bei 18x weniger Parametern erreicht.

    Beispiel

    ALBERT teilt Gewichte über alle 12 Transformer-Layers: 12M Parameter statt 110M (BERT) bei vergleichbarer Qualität.

    Häufige Fallstricke

    Zu aggressives Weight Sharing limitiert Modell-Kapazität. Nicht alle Architekturen profitieren gleichermaßen. Kann Training destabilisieren.

    Entstehung & Geschichte

    Weight Sharing in CNNs wurde 1989 von LeCun für LeNet genutzt. Im Transformer-Kontext popularisierten Press & Wolf (2017) Tied Embeddings. ALBERT (Google, 2019) demonstrierte Cross-Layer Sharing.

    Abgrenzung & Vergleiche

    Weight Sharing vs. Pruning

    Pruning entfernt Gewichte; Weight Sharing reduziert die Anzahl einzigartiger Gewichte durch Wiederverwendung.

    Weight Sharing vs. Knowledge Distillation

    Distillation trainiert ein neues kleineres Modell; Weight Sharing macht das bestehende Modell kompakter durch Gewichts-Wiederverwendung.

    Verwandte Services

    Verwandte Begriffe

    👋Fragen? Chatte mit uns!