Spark pour développeurs
Vous êtes développeur et vous souhaitez maîtriser le framework de traitement distribué le plus performant ? Des fondamentaux théoriques au déploiement cloud, développez une expertise hands-on sur Apache Spark.
2 jours
Max 7 participants

Les apprentissages clés
de la formation
Comprendre les fondamentaux de Spark
Maîtriser l'architecture distribuée de Spark, le partitionnement, le lineage et la philosophie du framework pour écrire du code performant dès le départ.
Développer et tester des applications Spark
Manipuler RDDs, DataFrames et opérations avancées (UDF, UDAF, Window Functions), et mettre en place une stratégie de test complète.
Optimiser et déployer en production
Comprendre le fonctionnement interne (cache, shuffle, mémoire), optimiser les performances et déployer des jobs Spark sur le cloud.
Les modules de la formation
Sept modules progressifs pour passer de la découverte de Spark au déploiement cloud, en maîtrisant le traitement distribué de bout en bout.
Découvrir Spark
Big Data, systèmes distribués et premiers pas avec Spark : créer sa première application et comprendre les concepts fondateurs.
Objectifs :
- Comprendre le scaling horizontal, les systèmes distribués et le paradigme MapReduce
- Maîtriser les concepts de base de Spark : partitionnement, lineage, optimisation et parallélisation
- Créer une application Spark et choisir entre RDD, Dataset et DataFrame
MODULES :
- Croissance verticale et horizontale, systèmes distribués, paradigme MapReduce
- Partitionnement, lineage, optimisation et parallélisation dans Spark
- Batch, Streaming et ML : créer une application Spark
- RDD, Dataset, DataFrame : quand utiliser quoi
- Format Parquet et systèmes de stockage
Coder avec Spark
Les opérations fondamentales de transformation de données et la mise en place d'une stratégie de test robuste.
Objectifs :
- Maîtriser les opérations Map, Reduce et les fonctions sur colonnes
- Implémenter des tests unitaires et d'intégration pour les applications Spark
- Préparer des jeux de données de test adaptés
MODULES :
- Choix de l'environnement cloud (EMR, Dataproc, Databricks, HDInsight)
- Spark-submit : options et configuration
- Déploiement d'un pipeline de bout en bout
Devenir un expert Spark
Fonctionnement interne du moteur et opérations avancées pour optimiser les performances des jobs Spark.
Objectifs :
- Comprendre le cache, les jointures, le shuffle et la gestion mémoire de Spark
- Implémenter des UDF, UDAF et Window Functions
- Diagnostiquer et résoudre les problèmes de performance
MODULES :
- Cache, jointures, shuffle et gestion mémoire
- Diagnostic de performance et optimisation
- UDF (User Defined Functions) et UDAF
- Window Functions pour les transformations avancées
Déployer sur le cloud
Choisir son environnement, configurer et déployer un job Spark en production.
Objectifs :
- Choisir le bon environnement cloud pour ses jobs Spark
- Maîtriser spark-submit et la configuration des jobs
- Déployer un pipeline de bout en bout
MODULES :
- Choix de l'environnement cloud (EMR, Dataproc, Databricks, HDInsight)
- Spark-submit : options et configuration
- Déploiement d'un pipeline de bout en bout
Les petits + de la formation

Des ateliers ludiques et participatifs
Nous avons créé les Fresques de la data et de l’IA générative pour rendre l’apprentissage de concepts ludique et accessibles au plus grand nombre.
Des formats gamifiés et innovants
Nous avons imaginés des jeux pour apprendre les bonnes pratiques de prompting et appréhender différents types d’IA génératives.


Toutes nos formations sont finançable par votre OPCO
Ces formations pourraient aussi vous intéresser
ces offres pourraient aussi vous intéresser
Ces contenus pourraient
aussi vous intéresser
Article
Tech & Data
5 min
🌶️
Débutants

Comment leboncoin forme ses Product & Engineering Managers aux enjeux Data & IA.
28.01.2026
Article
Tech & Data
15 min
🌶️
🌶️
Confirmés

Surveiller les accès à vos données AWS avec CloudTrail, EventBridge, Lambda et Firehose.
24.06.2025
Article
Tech & Data
10 min
🌶️
🌶️
Experts

Combiner AWS SageMaker et Lambda pour des prédictions ML en temps réel, sans gérer de serveurs.
12.05.2025
Vidéo
Tech & Data

Quels sont les challenges d'un Lead AI dans une scale-up qui veut faire de l'IA son cheval de bataille stratégique ?
Quels sont les challenges d'un Lead AI dans une scale-up qui veut faire de l'IA son cheval de bataille stratégique ?
Au cours de cette interview, Remi Takase, Lead AI de Mirakl, nous expliquera son quotidien, ses questionnements et ses challenges passés et à venir.
08.07.2025
Vidéo
Tech & Data

Gaël Varoquaux est le co-fondateur de scikit-learn, le projet open-source le plus utilisé pour faire du Machine Learning en Python. Directeur de recherche à l’Inria, il est aussi membre du récent comité scientifique pour l’Intelligence Artificielle Générative. Il nous accorde une interview exclusive durant laquelle il nous partage ses convictions sur l'avenir de l'IA et sur la place de l'open-source.e
Au programme :
- Sa vision Produit autour de scikit-learn et son avenir - et plus généralement la place de l’open-source dans la tech et l’IA
- Ses travaux de recherche à l’Inria - en particulier les applications du Machine Learning sur des questions de santé et de société
- Ses messages et convictions sur les challenges à venir en IA - messages qu’il porte auprès du comité de l'intelligence artificielle générative
08.07.2025
01.07.2025
Construisons votre parcours de formation
Discutons de vos besoins en formation et créons un programme sur mesure pour vos équipes.






