Formation Apache Airflow
L’objectif de cette formation est de savoir maitriser les principes de l’orchestration de pipelines data avec Apache Airflow. Airflow est une plate-forme de gestion de flux de travail open source initialement créée par Airbnb en 2014.
Dans cette formation, nous verrons les grands principes des orchestrateurs et les bonnes pratiques à adopter pour utiliser AirFlow dans des contextes d’industrialisation de projets data.
Cette formation s’inscrit dans un parcours de Data Engineer ou de Data Scientist.
Objectifs
<div class="wrapper-block"><div class="wrapper-objectives"> <div class="icons-check"> </div>Vous serez à même d’utiliser AirFlow dans le contexte de vos projets data, et aurez une culture générale affinée autour des principaux orchestrateurs.</div></div>
Note
Public cible
- Data Engineers
- Data Ops Engineers
- ML Engineers
- Software Engineers
Prérequis
Aucun
Taux d'abandon
Programme détaillé
Introduction à l’orchestration
- Qu’est-ce qu’un orchestrateur ?
- Historique des outils existants
- Pourquoi Airflow est partout ?
Le vocabulaire Airflow
- DAG
- DAG run
- Tâche
Créer un DAG
- Les éléments qui composent un DAG
- Exercices pratiques
Configurer l’orchestration de son DAG
- La start date
- Reprise en cas d’erreur
- Rejeu d’historique
- Exercices pratiques
Les fonctionnalités de développement avancées
- Les plugins
- Architecturer le code de ses DAGs
- Xcom : la base de données interne d’Airflow
- Le pooling
- Exercices pratiques
Aller plus loin !
- Quand choisir Airflow et comment ?
- Discussion et échanges sur votre contexte