DVC (Data Version Control)
Open-Source-Tool für Daten- und Modell-Versionierung, das Git-Workflows auf ML-Artefakte erweitert.
DVC erweitert Git um Daten- und Modell-Versionierung für ML-Projekte – mit Pipeline-Tracking, Experiment-Vergleichen und Cloud-Storage-Integration.
Erklärung
DVC versioniert große Dateien (Datasets, Modelle) separat von Git, verwaltet ML-Pipelines als DAGs und unterstützt Experiment-Vergleiche. Storage-Backends umfassen S3, GCS und Azure.
Relevanz für Marketing
DVC ist das führende Tool für Git-basierte ML-Daten- und Experiment-Versionierung.
Häufige Fallstricke
Storage-Kosten bei großen Datasets. Lernkurve für Git-unerfahrene Data Scientists. Remote Storage muss konfiguriert werden.
Entstehung & Geschichte
Iterative.ai veröffentlichte DVC 2017 als "Git for Data". CML (Continuous Machine Learning) wurde 2020 als CI/CD-Companion veröffentlicht. DVC Studio folgte als Web-UI. Heute hat DVC über 13.000 GitHub-Stars.
Abgrenzung & Vergleiche
DVC (Data Version Control) vs. Git LFS
Git LFS speichert große Dateien in Git; DVC bietet zusätzlich ML-Pipelines, Experiment-Tracking und flexible Storage-Backends.
DVC (Data Version Control) vs. MLflow
DVC fokussiert auf Daten-Versionierung mit Git-Workflow; MLflow auf Experiment Tracking und Model Registry.