Sparse Mixture of Experts
Eine Architektur, bei der nur ein kleiner Teil aller "Experten-Subnetze" pro Input aktiviert wird – ermöglicht riesige Modellkapazität bei effizienter Inferenz.
Architektur hinter Mixtral, GPT-4, Gemini und anderen State-of-the-Art-Modellen. Ermöglicht Modelle mit Billionen Parametern bei bezahlbarer Inferenz.
Erklärung
Ein Gating-Network routet jeden Token zu den Top-K Experten (von N total, z.B. K=2 von N=64). Nur diese Experten werden berechnet. Modell hat N*Expert-Größe Parameter, aber nur K*Expert-Größe FLOPs pro Token.
Relevanz für Marketing
Architektur hinter Mixtral, GPT-4, Gemini und anderen State-of-the-Art-Modellen. Ermöglicht Modelle mit Billionen Parametern bei bezahlbarer Inferenz. Die Zukunft der LLM-Skalierung.
Beispiel
Mixtral 8x7B hat 8 Experten à 7B Parameter (56B total), aktiviert aber nur 2 pro Token. Resultat: GPT-3.5-Qualität bei Mistral-7B-Inferenzkosten. 8x billiger pro Token.
Häufige Fallstricke
Hoher Memory-Bedarf (alle Experten müssen geladen sein). Load Balancing zwischen Experten kritisch. Komplexeres Training. Nicht alle Tokens profitieren gleich.
Entstehung & Geschichte
Sparse Mixture of Experts ist ein etablierter Begriff im Bereich Künstliche Intelligenz. Das Konzept hat sich mit der zunehmenden Bedeutung von KI und datengetriebenen Methoden weiterentwickelt.