Weight Sharing
Eine Technik, bei der mehrere Teile eines neuronalen Netzes dieselben Gewichte verwenden – reduziert Parameteranzahl und Speicherverbrauch erheblich.
Weight Sharing lässt mehrere Netzwerk-Teile dieselben Gewichte nutzen – ALBERT erreicht damit BERT-Qualität bei 18x weniger Parametern.
Erklärung
Weight Sharing ist fundamental in CNNs (Filter werden über das Bild geteilt) und Transformern (Embedding/Output-Layer teilen Gewichte). ALBERT nutzt Cross-Layer Weight Sharing für 18x kleinere Modelle.
Relevanz für Marketing
Weight Sharing ermöglicht kompaktere Modelle mit weniger Overfitting-Risiko. ALBERT bewies, dass cross-layer sharing BERT-Qualität bei 18x weniger Parametern erreicht.
Beispiel
ALBERT teilt Gewichte über alle 12 Transformer-Layers: 12M Parameter statt 110M (BERT) bei vergleichbarer Qualität.
Häufige Fallstricke
Zu aggressives Weight Sharing limitiert Modell-Kapazität. Nicht alle Architekturen profitieren gleichermaßen. Kann Training destabilisieren.
Entstehung & Geschichte
Weight Sharing in CNNs wurde 1989 von LeCun für LeNet genutzt. Im Transformer-Kontext popularisierten Press & Wolf (2017) Tied Embeddings. ALBERT (Google, 2019) demonstrierte Cross-Layer Sharing.
Abgrenzung & Vergleiche
Weight Sharing vs. Pruning
Pruning entfernt Gewichte; Weight Sharing reduziert die Anzahl einzigartiger Gewichte durch Wiederverwendung.
Weight Sharing vs. Knowledge Distillation
Distillation trainiert ein neues kleineres Modell; Weight Sharing macht das bestehende Modell kompakter durch Gewichts-Wiederverwendung.