Apache Airflow
Open-Source-Plattform für die Orchestrierung komplexer Data- und ML-Workflows als DAGs (Directed Acyclic Graphs).
Apache Airflow orchestriert Data- und ML-Workflows als Python-definierte DAGs mit Scheduling, Monitoring und Cloud-Integration.
Erklärung
Airflow definiert Workflows als Python-Code (DAGs), bietet Scheduling, Monitoring, Retry-Logik und ein Web-UI. Operators verbinden sich mit Cloud-Services, Datenbanken und ML-Frameworks.
Relevanz für Marketing
Apache Airflow ist der meistgenutzte Workflow-Orchestrator für Data Engineering und ML-Pipelines.
Häufige Fallstricke
Nicht für Echtzeit-Streaming geeignet. Scheduler-Bottleneck bei tausenden DAGs. TaskFlow API vs. klassische Operators verwirrend.
Entstehung & Geschichte
Airbnb entwickelte Airflow 2014 intern. 2016 wurde es Apache-Incubator-Projekt, 2019 Top-Level-Apache-Projekt. Airflow 2.0 (2020) brachte die TaskFlow API und den neuen Scheduler. Managed Services: Astronomer, Google Cloud Composer, Amazon MWAA.
Abgrenzung & Vergleiche
Apache Airflow vs. Kubeflow Pipelines
Kubeflow ist ML-spezialisiert auf Kubernetes; Airflow ist ein allgemeiner Workflow-Orchestrator für Data + ML.
Apache Airflow vs. Prefect
Prefect bietet modernere Python-native Orchestrierung; Airflow hat das größere Ökosystem und mehr Community-Support.