Décideur
Produit
IA, Data & Tech
Réussite :
100%
Satisfaction :
8.5/10

Spark pour développeurs

Découvrez l'évolution du Big Data, de la croissance verticale à horizontale, les systèmes distribués et les concepts fondamentaux de Spark.

avec

Franck Cussac

Senior Data Engineer

Franck Cussac est actuellement Senior Data Engineer chez Hymaïa.

voir le profil complet

Franck Cussac est actuellement Senior Data Engineer chez Hymaïa.

voir le profil complet
Prochaine(s) session(s)
s'inscrire
Nous contacter
Format(s)
⏱️
Approfondi (2 jours)
🧑‍💻
distanciel
Tarif(s)
finançable par l'OPCO En savoir plus
Intra entreprise HT
9000€
Inter entreprises HT
1500€
Nombre de participants
👯
Max 7 participants

Description

Cette formation a pour objectif de vous fournir l’ensemble des connaissances et compétences nécessaires pour utiliser Apache Spark dans vos projets de Data Engineering au quotidien. Elle vous donnera les fondamentaux théoriques nécessaires pour comprendre son fonctionnement interne et sa philosophie, et vous permettra de développer une expertise hands’on sur ses principaux concepts et cas d’utilisation, allant de l’ingestion de données au déploiement.

Infos clés

Objectifs

  • Expliquer l'architecture et les concepts fondamentaux de Spark
  • Identifier les cas d'usage appropriés pour l'utilisation de Spark
  • Manipuler les RDDs (Resilient Distributed Datasets) et comprendre leurs opérations
  • Utiliser les DataFrames et DataSets Spark pour le traitement de données structurées
  • Optimiser les performances des jobs Spark (partitionnement, caching, tuning)
  • Implémenter des pipelines de traitement de données avec Spark SQL
  • Déboguer et monitorer des applications Spark

Public cible

  • Data Engineers
  • Software Engineers
  • ML Engineers
  • Data Scientists

Prérequis

  • Une connaissance initiale de la programmation en Python ou Scala est recommandée.
  • Quelques intuitions sur le Big Data de manière générale est aussi un plus, mais n’est pas obligatoire.

Programme détaillé

L’apparition du Big Data

  • Croissance verticale et horizontale
  • Les systèmes distribués
  • Map Reduce

Les concepts de base de Spark

  • Partitionning
  • Lineage
  • Optimisation
  • Parallélisation

Ma première application Spark

  • Batch, Streaming et ML
  • Créer une application Spark
  • Comment traiter la donnée : RDD, Dataset, DataFrame
  • Le format parquet
  • Les systèmes de stockage

Transformer sa donnée (les bases)

  • Opérations Map
  • Opérations Reduce
  • Les fonctions sur colonne
  • L’objet colonne

Tester son application Spark

  • Tests unitaires
  • Tests d’intégrations
  • Préparer ses jeux de données

Fonctionnement interne de Spark

  • Le cache
  • Les jointures
  • Le shuffle
  • La mémoire

Les opérations de transformations de données avancées

  • UDF
  • UDAF
  • Window functions

Déployer un job Spark

  • Choisir son environnement
  • Spark-submit
  • Configurer son job Spark
voir tout le programme
ou
Envoyez-moi le programme
Merci !
Vous allez le recevoir par mail dans quelques secondes
Oops! Une erreur est survenue, merci de rééssayer !

Formateur(s)

Ce qu’ils en disent…

Financer votre formation par un OPCO

En tant qu'organisme certifié Qualopi, les formations que nous vous proposons sont finançables par l'OPCO. Trouvez l'OPCO dont vous dépendez ici

Contacts

s'inscrire
Contact pédagogique et technique
training@hymaia.com
Contact PSH
adaptation@hymaia.com
Accès

Modalités

Modalités d'évaluation

Un questionnaire d'auto-évaluation est envoyé aux participants avant et après la formation pour mesurer leur progression.

Pendant la formation :

Les acquis sont évalués tout au long de la formation par les formateurs sous forme de Quizz en ligne, questions réponses ou tour de table.

Le participant se verra délivrer une attestation de fin de formation à l’issue de la session

Organisation

- en présentiel :

Cette formation est en groupe de 6 à 12 personne en intra-entreprise ou inter-entreprise en fonction du format souhaité par le commanditaire.

- en ligne :

Un lien vous sera envoyé pour suivre les sessions à distances. Merci d'activer les caméras lors des sessions avec notre formateur. 

Modalités d'accès

Les sessions peuvent  être programmées jusqu’ à 7  jours avant la date retenue, sous condition d’un formateur disponible et de la réception de la convention signée avant la session pour des groupes de  6 à 12 personnes .

Les prochains événements Hymaïa

avec

Hymaday - AI Adoption At Scale

📅
1/7/2025
👯
100 participants

Forward Data Conference 2025

📅
24/11/2025
👯
700 participants