ML Pipeline
Automatisierte Sequenz von Schritten für Datenverarbeitung, Feature Engineering, Training, Evaluation und Deployment eines ML-Modells.
ML Pipelines automatisieren den Workflow von Datenverarbeitung über Training bis Deployment – Kubeflow Pipelines und Apache Airflow sind gängige Orchestratoren.
Erklärung
ML Pipelines orchestrieren den gesamten ML-Workflow von Rohdaten bis Produktion. Sie gewährleisten Reproduzierbarkeit, Automatisierung und Skalierung.
Relevanz für Marketing
ML Pipelines sind die Grundlage für professionelles MLOps und reproduzierbare ML-Systeme.
Häufige Fallstricke
Monolithische Pipelines statt modularer Schritte. Keine Idempotenz. Fehlende Error-Handling-Logik.
Entstehung & Geschichte
Scikit-learn popularisierte das Pipeline-Konzept für Feature-Transformation. Apache Airflow (2014) brachte DAG-basierte Orchestrierung. Kubeflow Pipelines (2018) spezialisierte dies für ML auf Kubernetes. Vertex AI Pipelines und SageMaker Pipelines folgten.
Abgrenzung & Vergleiche
ML Pipeline vs. Data Pipeline
Data Pipelines verarbeiten Daten (ETL); ML Pipelines umfassen zusätzlich Training, Evaluation und Model Deployment.
ML Pipeline vs. CI/CD Pipeline
CI/CD Pipelines testen und deployen Code; ML Pipelines orchestrieren den gesamten ML-Lifecycle inklusive Daten und Modelle.