Formation Orchestration de pipelines data avec Airflow

S'inscrire à la formation

Durée

2 jours

Tarif

1500€HT

Prochaine session

Nous contacter

Description de la formation

L’objectif de cette formation est de savoir maitriser les principes de l’orchestration de pipelines data avec Apache Airflow. Airflow est une plate-forme de gestion de flux de travail open source initialement créée par Airbnb en 2014.

Dans cette formation, nous verrons les grands principes des orchestrateurs et les bonnes pratiques à adopter pour utiliser AirFlow dans des contextes d’industrialisation de projets data.

Cette formation s’inscrit dans un parcours de Data Engineer ou de Data Scientist.

A l’issue de cette formation

Vous serez à même d’utiliser AirFlow dans le contexte de vos projets data, et aurez une culture générale affinée autour des principaux orchestrateurs.

Public cible

Data Engineers, Data Ops Engineers, ML Engineers, Software Engineers

Programme détaillé

Introduction à l’orchestration

  • Qu’est-ce qu’un orchestrateur ?
  • Historique des outils existants
  • Pourquoi Airflow est partout ?

Le vocabulaire Airflow

  • DAG
  • DAG run
  • Tâche

Créer un DAG

  • Les éléments qui composent un DAG
  • Exercices pratiques

Configurer l’orchestration de son DAG

  • La start date
  • Reprise en cas d’erreur
  • Rejeu d’historique
  • Exercices pratiques

Les fonctionnalités de développement avancées

  • Les plugins
  • Architecturer le code de ses DAGs
  • Xcom : la base de données interne d’Airflow
  • Le pooling
  • Exercices pratiques

Aller plus loin !

  • Quand choisir Airflow et comment ?
  • Discussion et échanges sur votre contexte
S'inscrire à la formation