Formation SPARK Mise en oeuvre des traitements Big Data avec Spark

REF
SPARK
DUREE
3 Jours
TARIF
1990€ HT
>

Objectifs

  • Pouvoir comprendre le fonctionnement de Spark et son utilisation dans un environnement Hadoop
  • Savoir intégrer Spark dans un environnement Hadoop
  • Comprendre comment traiter des données Cassandra, HBase, Kafka, Flume, Sqoop et S3
>

Public

  • Chefs de projet
  • Data Scientists
  • Développeurs
>

Prérequis

  • Connaissance de Java ou Python
  • Avoir suivi le séminaire “Hadoop - Présentation de l’écosystème” (SEM35) ou avoir des bases Hadoop
  • Notions de calculs statistiques
>

Programme

Introduction

  • Présentation de Spark, origine du projet
  • Apports et principes de fonctionnement
  • Langages supportés

Premiers pas

  • Utilisation du shell Spark avec Scala ou Python
  • Modes de fonctionnement
  • Interprété, compilé
  • Utilisation des outils de construction
  • Gestion des versions de bibliothèques

Règles de développement

  • Mise en pratique en Java, Scala et Python
  • Notion de contexte Spark
  • Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe
  • Manipulations sur les RDD (Resilient Distributed Dataset)
  • Fonctions, gestion de la persistance

Cluster

  • Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
  • Architecture : SparkContext, Cluster Manager, Executor sur chaque noeud
  • Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2
  • Soumission de jobs, supervision depuis l’interface web

Traitements

  • Lecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels
  • Jointures
  • Filtrage de données, enrichissement
  • Calculs distribués de base
  • Introduction aux traitements de données avec map/reduce
  • Travail sur les RDDs
  • Transformations et actions
  • Lazy execution
  • Impact du shuffle sur les performances
  • RDD de base, key-pair RDDs
  • Variables partagées : accumulateurs et variables broadcast

Intégration Hadoop

  • Présentation de l’écosystème Hadoop de base : HDFS/Yarn
  • Travaux pratiques avec YARN
  • Création et exploitation d’un cluster Spark/YARN
  • Intégration de données sqoop, kafka, flume vers une architecture Hadoop
  • Intégration de données AWS S3

Support Cassandra

  • Description rapide de l’architecture Cassandra
  • Mise en oeuvre depuis Spark
  • Exécution de travaux Spark s’appuyant sur une grappe Cassandra

DataFrames

  • Spark et SQL
  • Objectifs : traitement de données structurées
  • L’API Dataset et DataFrames
  • Optimisation des requêtes
  • Mise en oeuvre des Dataframes et DataSet
  • Comptabilité Hive
  • Travaux pratiques : extraction, modification de données dans une base distribuée
  • Collections de données distribuées
  • Exemples

Streaming

  • Objectifs , principe de fonctionnement : stream processing
  • Source de données : HDFS, Flume, Kafka, …
  • Notion de Streaming
  • Contexte, DStreams, démonstrations
  • Traitement de flux DStreams en Scala

Machine Learning

  • Fonctionnalités : Machine Learning avec Spark, algorithmes standards, gestion de la persistance, statistiques
  • Support de RDD
  • Mise en oeuvre avec les DataFrames

Spark GraphX

  • Fourniture d’algorithmes, d’opérateurs simples pour des calculs statistiques sur les graphes
  • Exemples d’opérations sur les graphes
>

Moyens et Méthodes Pédagogiques

  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
  • Un poste par stagiaire
  • Formateur Expert
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
>

Validation des acquis

  • Auto évaluation des acquis par le stagiaire via un questionnaire en fin de formation
  • Attestation de fin de stage remise avec la facture
Dates des sessions
Lieu
>24/11/2025
au
26/11/2025
Paris ou à Distance
>08/12/2025
au
10/12/2025
Paris ou à Distance
>19/01/2026
au
21/01/2026
Paris ou à Distance
Toutes les dates
Un Intra ?Une formation sur mesure ?
>24/11/2025
au
26/11/2025
Paris ou à Distance
>08/12/2025
au
10/12/2025
Paris ou à Distance
>19/01/2026
au
21/01/2026
Paris ou à Distance
>09/02/2026
au
11/02/2026
Paris ou à Distance
>09/03/2026
au
11/03/2026
Paris ou à Distance
>13/04/2026
au
15/04/2026
Paris ou à Distance
>18/05/2026
au
20/05/2026
Paris ou à Distance
>08/06/2026
au
10/06/2026
Paris ou à Distance
>22/06/2026
au
24/06/2026
Paris ou à Distance
>14/09/2026
au
16/09/2026
Paris ou à Distance
>28/09/2026
au
30/09/2026
Paris ou à Distance
>16/11/2026
au
18/11/2026
Paris ou à Distance
>07/12/2026
au
09/12/2026
Paris ou à Distance
Moins des dates
Un Intra ? Une formation sur mesure ?

Nos Clients

Logo Nativo Certification Qualiopi - Organisme de formation certifié
Localisation Nativo - 26-28 rue de Londres, 75009 Paris

Adresse :

26-28 rue de Londres
75009 Paris

Metro :

3
9
12
13
14
RER
A
E

Déclaration CNIL n° 1286285