Spark pour développeurs

Vous êtes développeur et vous souhaitez maîtriser le framework de traitement distribué le plus performant ? Des fondamentaux théoriques au déploiement cloud, développez une expertise hands-on sur Apache Spark.

2 jours

Max 7 participants

+
Formations données
Formations données
+
--
Apprenants formés en 2025
Apprenants formés en 2025
100
%
Satisfaction moyenne
Satisfaction moyenne
Taux de réponse
Taux de réponse
Objectifs

Les apprentissages clés
de la formation

icône fusée

Comprendre les fondamentaux de Spark

Maîtriser l'architecture distribuée de Spark, le partitionnement, le lineage et la philosophie du framework pour écrire du code performant dès le départ.

icône fusée

Développer et tester des applications Spark

Manipuler RDDs, DataFrames et opérations avancées (UDF, UDAF, Window Functions), et mettre en place une stratégie de test complète.

icône fusée

Optimiser et déployer en production

Comprendre le fonctionnement interne (cache, shuffle, mémoire), optimiser les performances et déployer des jobs Spark sur le cloud.

Programme

Les modules de la formation

Sept modules progressifs pour passer de la découverte de Spark au déploiement cloud, en maîtrisant le traitement distribué de bout en bout.

01

Découvrir Spark

3h30

Big Data, systèmes distribués et premiers pas avec Spark : créer sa première application et comprendre les concepts fondateurs.

Objectifs :

  • Comprendre le scaling horizontal, les systèmes distribués et le paradigme MapReduce
  • Maîtriser les concepts de base de Spark : partitionnement, lineage, optimisation et parallélisation
  • Créer une application Spark et choisir entre RDD, Dataset et DataFrame

MODULES :

  • Croissance verticale et horizontale, systèmes distribués, paradigme MapReduce
  • Partitionnement, lineage, optimisation et parallélisation dans Spark
  • Batch, Streaming et ML : créer une application Spark
  • RDD, Dataset, DataFrame : quand utiliser quoi
  • Format Parquet et systèmes de stockage
02

Coder avec Spark

3h30

Les opérations fondamentales de transformation de données et la mise en place d'une stratégie de test robuste.

Objectifs :

  • Maîtriser les opérations Map, Reduce et les fonctions sur colonnes
  • Implémenter des tests unitaires et d'intégration pour les applications Spark
  • Préparer des jeux de données de test adaptés

MODULES :

  • Choix de l'environnement cloud (EMR, Dataproc, Databricks, HDInsight)
  • Spark-submit : options et configuration
  • Déploiement d'un pipeline de bout en bout
03

Devenir un expert Spark

3h30

Fonctionnement interne du moteur et opérations avancées pour optimiser les performances des jobs Spark.

Objectifs :

  • Comprendre le cache, les jointures, le shuffle et la gestion mémoire de Spark
  • Implémenter des UDF, UDAF et Window Functions
  • Diagnostiquer et résoudre les problèmes de performance

MODULES :

  • Cache, jointures, shuffle et gestion mémoire
  • Diagnostic de performance et optimisation
  • UDF (User Defined Functions) et UDAF
  • Window Functions pour les transformations avancées
04

Déployer sur le cloud

3h30

Choisir son environnement, configurer et déployer un job Spark en production.

Objectifs :

  • Choisir le bon environnement cloud pour ses jobs Spark
  • Maîtriser spark-submit et la configuration des jobs
  • Déployer un pipeline de bout en bout

MODULES :

  • Choix de l'environnement cloud (EMR, Dataproc, Databricks, HDInsight)
  • Spark-submit : options et configuration
  • Déploiement d'un pipeline de bout en bout
Magic sauce

Les petits + de la formation

Un groupe de huit personnes debout autour d'une table blanche dans une salle de réunion moderne avec des chaises en bois et des plantes.
Figurine de jouet Playmobil tenant un panneau « Data Engineer » sur une table avec des cartes sur le thème de la gestion des données.

Des ateliers ludiques et participatifs

Nous avons créé les Fresques de la data et de l’IA générative pour rendre l’apprentissage de concepts ludique et accessibles au plus grand nombre.

Deux smartphones affichant des classements et résultats dans une application nommée Prompt Fighter sur fond violet avec motifs abstraits.

Des formats gamifiés et innovants

Nous avons imaginés des jeux pour apprendre les bonnes pratiques de prompting et appréhender différents types d’IA génératives.

Un groupe de cinq jeunes adultes diversifiés collaborant autour d'un ordinateur portable sur une grande table en bois dans un bureau moderne.

Des formateurs certifiés et passionnés

Les formations sont données par des experts d’Hymaïa. Également consultants, ils auront à coeur de vous partagez leurs expériences terrain...

Tristan Achache
Armelle Lefort
Simone Civetta
Elsa Margier
Anis Zakari

Hymaia est certifiée Qualiopi et Toutes nos formations sont finançables par votre OPCO

Certification délivrée au titre des catégories d’actions suivantes : Action de formation (L.6313-1 - 1°)

Toutes nos formations sont finançable par votre OPCO

Télécharger le certificat
Pour aller plus loin

Ces formations pourraient aussi vous intéresser

Ces contenus pourraient
aussi vous intéresser

Article

Article

Tech & Data

5 min

🌶️

Débutants

Leboncoin x hymaïa : Former les Product & Engineering Managers aux enjeux Data & IA

Comment leboncoin forme ses Product & Engineering Managers aux enjeux Data & IA.

28.01.2026

Voir
Article

Article

Tech & Data

15 min

🌶️

🌶️

Confirmés

Tracking des accès à la donnée dans AWS

Surveiller les accès à vos données AWS avec CloudTrail, EventBridge, Lambda et Firehose.

24.06.2025

Voir
Article

Article

Tech & Data

10 min

🌶️

🌶️

Experts

Serverless Inference : Quand AWS SageMaker rencontre AWS Lambda

Combiner AWS SageMaker et Lambda pour des prédictions ML en temps réel, sans gérer de serveurs.

12.05.2025

Voir
Vidéo

Vidéo

Tech & Data

Les secrets d'une équipe Data Science réussie : automatisation, diversité et innovation

Quels sont les challenges d'un Lead AI dans une scale-up qui veut faire de l'IA son cheval de bataille stratégique ?

Quels sont les challenges d'un Lead AI dans une scale-up qui veut faire de l'IA son cheval de bataille stratégique ?

Au cours de cette interview, Remi Takase, Lead AI de Mirakl, nous expliquera son quotidien, ses questionnements et ses challenges passés et à venir.

08.07.2025

Voir
Vidéo

Vidéo

Tech & Data

Café Data avec Gaël Varoquaux

Gaël Varoquaux est le co-fondateur de scikit-learn, le projet open-source le plus utilisé pour faire du Machine Learning en Python. Directeur de recherche à l’Inria, il est aussi membre du récent comité scientifique pour l’Intelligence Artificielle Générative. Il nous accorde une interview exclusive durant laquelle il nous partage ses convictions sur l'avenir de l'IA et sur la place de l'open-source.e

Au programme :

  • Sa vision Produit autour de scikit-learn et son avenir - et plus généralement la place de l’open-source dans la tech et l’IA
  • Ses travaux de recherche à l’Inria - en particulier les applications du Machine Learning sur des questions de santé et de société
  • Ses messages et convictions sur les challenges à venir en IA - messages qu’il porte auprès du comité de l'intelligence artificielle générative

08.07.2025

Voir
Vidéo

Vidéo

Tech & Data

Kubernetes en 1h pour les dev

01.07.2025

Voir

Construisons votre parcours de formation

Discutons de vos besoins en formation et créons un programme sur mesure pour vos équipes.