ONNX (Open Neural Network Exchange)
Ein offenes Format für den Austausch von ML-Modellen zwischen verschiedenen Frameworks – trainiere in PyTorch, deploye mit TensorRT oder CoreML.
ONNX ist das universelle Austauschformat für ML-Modelle – trainiere in PyTorch, deploye überall mit bis zu 5x schnellerer Inferenz durch ONNX Runtime.
Erklärung
ONNX definiert einen Standard-Graphen für neuronale Netze mit über 150 Operatoren. ONNX Runtime ist eine hochoptimierte Inference-Engine von Microsoft, die auf CPU, GPU und NPU läuft.
Relevanz für Marketing
ONNX eliminiert Framework-Lock-in: Modelle können frei zwischen PyTorch, TensorFlow und Inference-Engines bewegt werden. ONNX Runtime beschleunigt Inferenz um 2-5x.
Beispiel
Ein in PyTorch trainiertes Sentiment-Modell wird nach ONNX exportiert und mit ONNX Runtime deployed – 3x schnellere Inferenz und Cross-Platform-Kompatibilität.
Häufige Fallstricke
Nicht alle Custom Operators werden unterstützt. Konvertierung kann numerische Abweichungen einführen. Dynamic Shapes erfordern spezielle Behandlung.
Entstehung & Geschichte
Facebook und Microsoft gründeten ONNX 2017. ONNX Runtime wurde 2019 open-sourced und ist heute in Windows, Azure und Office integriert. Version 1.15+ unterstützt LLM-Inferenz.
Abgrenzung & Vergleiche
ONNX (Open Neural Network Exchange) vs. TensorRT
TensorRT ist NVIDIA-spezifisch und GPU-optimiert; ONNX ist framework-agnostisch und läuft auf CPU, GPU und NPU.
ONNX (Open Neural Network Exchange) vs. GGUF
GGUF ist für lokale LLM-Inferenz mit llama.cpp; ONNX ist ein allgemeines Format für alle ML-Modelltypen.