Künstliche Intelligenz

Pre-Training

Auch bekannt als:

Vortraining

Basis-Training

Foundation Model Training

Unsupervised Pre-Training

Aktualisiert: 8.2.2026

Die erste Trainingsphase eines LLMs, in der das Modell auf riesigen Textmengen (oft Billionen Tokens) lernt, Sprache zu verstehen und zu generieren – bevor spezialisiertes Fine-Tuning folgt.

Kurz erklärt

Pre-Training ist das initiale Training von LLMs auf Billionen Tokens, das das Weltwissen und Sprachverständnis aufbaut – die teuerste und wichtigste Phase.

Erklärung

Pre-Training nutzt self-supervised learning: Das Modell lernt, das nächste Token vorherzusagen (GPT-Stil) oder maskierte Tokens zu rekonstruieren (BERT-Stil). So entsteht ein "Foundation Model" mit breitem Weltwissen, das für viele Aufgaben adaptiert werden kann.

Relevanz für Marketing

Pre-Training erklärt, warum LLMs so viel wissen: Sie haben das Internet "gelesen". Für Marketing wichtig: Modell-Cutoff-Dates (Wissen nur bis Trainingszeitpunkt), und warum Fine-Tuning auf eigenen Daten oft nötig ist.

Beispiel

LLaMA 3 wurde auf 15 Billionen Tokens vortrainiert – das entspricht etwa 150 Millionen Büchern. Dieses Pre-Training kostete geschätzt 100+ Millionen Dollar an Compute. Das resultierende Basismodell kann dann für spezifische Aufgaben fine-getuned werden.

Häufige Fallstricke

Extrem teuer und ressourcenintensiv. Qualität hängt von Trainingsdaten ab. Bias in Daten wird gelernt. Cutoff-Date begrenzt aktuelles Wissen.

Entstehung & Geschichte

Pre-Training wurde durch Word2Vec (Mikolov 2013), dann ELMo (2018) und BERT (Google 2018) etabliert. GPT-3 (2020) zeigte, dass massives Pre-Training emergente Fähigkeiten freischaltet.

Abgrenzung & Vergleiche

Pre-Training vs. Fine-Tuning

Pre-Training baut allgemeines Wissen auf (Billionen Tokens); Fine-Tuning spezialisiert auf Tasks (Tausende Beispiele).

Pre-Training vs. Continual Pre-Training

Standard Pre-Training ist einmalig; Continual Pre-Training aktualisiert Modelle mit neuen Daten ohne vollständiges Neutraining.