Pre-Training
Die erste Trainingsphase eines LLMs, in der das Modell auf riesigen Textmengen (oft Billionen Tokens) lernt, Sprache zu verstehen und zu generieren – bevor spezialisiertes Fine-Tuning folgt.
Pre-Training ist das initiale Training von LLMs auf Billionen Tokens, das das Weltwissen und Sprachverständnis aufbaut – die teuerste und wichtigste Phase.
Erklärung
Pre-Training nutzt self-supervised learning: Das Modell lernt, das nächste Token vorherzusagen (GPT-Stil) oder maskierte Tokens zu rekonstruieren (BERT-Stil). So entsteht ein "Foundation Model" mit breitem Weltwissen, das für viele Aufgaben adaptiert werden kann.
Relevanz für Marketing
Pre-Training erklärt, warum LLMs so viel wissen: Sie haben das Internet "gelesen". Für Marketing wichtig: Modell-Cutoff-Dates (Wissen nur bis Trainingszeitpunkt), und warum Fine-Tuning auf eigenen Daten oft nötig ist.
Beispiel
LLaMA 3 wurde auf 15 Billionen Tokens vortrainiert – das entspricht etwa 150 Millionen Büchern. Dieses Pre-Training kostete geschätzt 100+ Millionen Dollar an Compute. Das resultierende Basismodell kann dann für spezifische Aufgaben fine-getuned werden.
Häufige Fallstricke
Extrem teuer und ressourcenintensiv. Qualität hängt von Trainingsdaten ab. Bias in Daten wird gelernt. Cutoff-Date begrenzt aktuelles Wissen.
Entstehung & Geschichte
Pre-Training wurde durch Word2Vec (Mikolov 2013), dann ELMo (2018) und BERT (Google 2018) etabliert. GPT-3 (2020) zeigte, dass massives Pre-Training emergente Fähigkeiten freischaltet.
Abgrenzung & Vergleiche
Pre-Training vs. Fine-Tuning
Pre-Training baut allgemeines Wissen auf (Billionen Tokens); Fine-Tuning spezialisiert auf Tasks (Tausende Beispiele).
Pre-Training vs. Continual Pre-Training
Standard Pre-Training ist einmalig; Continual Pre-Training aktualisiert Modelle mit neuen Daten ohne vollständiges Neutraining.