Formation Google Cloud Platform Ingénierie de données

REF
CP200DE
DUREE
4 Jours
TARIF
2890€ HT
>

Objectifs

  • Savoir concevoir et développer des systèmes de traitement de données sur Google Cloud Platform
  • Savoir traiter des données par lot ou par flux en implémentant des pipelines de données d’autoscaling sur Cloud Dataflow
  • Comprendre comment obtenir des informations métier à partir de très grands ensembles de données à l’aide de Google BigQuery
  • Pouvoir établir des prédictions avec des modèles de Machine Learning en utilisant Tensorflow et Cloud ML
  • Savoir tirer parti des données non structurées à l’aide de Spark et des API de Machine Learning sur Cloud Dataproc
  • Comprendre comment activer Instant Insights à partir des données par flux
>

Public

  • Développeurs expérimentés en charge des transformations du Big Data
>

Prérequis

  • Avoir suivi la formation “Google Cloud Platform - Les fondamentaux du Big Data et du Machine Learning” (CC381) ou bénéficier d’une expérience équivalente
  • Maîtriser les principes de base des langages de requête courants tels que SQL
  • Avoir de l’expérience en modélisation, extraction, transformation et chargement des données
  • Savoir développer des applications à l’aide d’un langage de programmation courant tel que Python
  • Savoir utiliser le Machine Learning et/ou les statistiques
  • Pour suivre cette formation dans des conditions optimales, nous vous recommandons de venir en formation avec un ordinateur portable
>

Programme

Présentation de Google Cloud Dataproc

  • Créer et gérer des clusters
  • Exploiter des types de machines personnalisés et des noeuds de calcul préemptifs
  • Faire évoluer et supprimer des clusters
  • Atelier : Créer des clusters Hadoop avec Google Cloud Dataproc

Exécution de tâches Dataproc

  • Exécuter des tâches Pig et Hive
  • Séparer le stockage et le calcul
  • Atelier : Exécuter des tâches Hadoop et Spark avec Dataproc
  • Atelier : Envoyer et surveiller des tâches

Intégrer Dataproc à Google Cloud Platform

  • Personnaliser un cluster à l’aide d’actions d’initialisation
  • Assistance BigQuery
  • Atelier : Exploiter les services Google Cloud Platform

Analyse des données non structurées avec les API de Machine Learning de Google

  • API de Machine Learning Google
  • Cas d’utilisation courants du ML
  • Appeler des API de ML
  • Atelier : Ajouter les capacités de Machine Learning à l’analyse Big Data

Analyse des données sans serveur avec BigQuery

  • Qu’est-ce que BigQuery ?
  • Requêtes et fonctions
  • Atelier : Écrire des requêtes dans BigQuery
  • Charger des données dans BigQuery
  • Exporter des données à partir de BigQuery
  • Atelier : Charger et exporter des données
  • Champs imbriqués et répétés
  • Interroger plusieurs tables
  • Atelier : Requêtes complexes
  • Performances et tarification

Pipelines de données d’autoscaling sans serveur avec Dataflow

  • Le modèle de programmation Beam
  • Pipelines de données dans Beam Python
  • Pipelines de données dans Beam Java
  • Atelier : Écrire un pipeline Dataflow
  • Traitement adaptable du Big Data avec Beam
  • Atelier : MapReduce dans Dataflow
  • Intégrer des données supplémentaires
  • Atelier : Entrées secondaires
  • Gérer des données par flux
  • Architecture de référence GCP

Premiers pas avec le Machine Learning

  • Qu’est-ce que le Machine Learning (ML) ?
  • ML efficace : concepts et types
  • Ensembles de données de ML : généralisation
  • Atelier : Explorer et créer des ensembles de données de ML

Créer des modèles de ML avec TensorFlow

  • Premiers pas avec TensorFlow
  • Atelier : Utiliser tf.learn
  • Graphiques et boucles TensorFlow + atelier
  • Atelier : Utiliser TensorFlow de bas niveau + arrêt prématuré
  • Surveiller l’apprentissage ML
  • Atelier : Graphiques d’apprentissage TensorFlow

Faire évoluer les modèles de ML avec Cloud ML

  • Pourquoi utiliser Cloud ML ?
  • Créer le package d’un modèle TensorFlow
  • Apprentissage de bout en bout
  • Atelier : Exécuter un modèle de ML localement et sur le Cloud

Extraction de caractéristiques

  • Créer des fonctionnalités pertinentes
  • Transformer les entrées
  • Fonctionnalités synthétiques
  • Prétraitement avec Cloud ML
  • Atelier : Extraction de caractéristiques

Architecture des pipelines d’analyse par flux

  • Défis du traitement des données par flux
  • Gérer les volumes de données variables
  • Gérer les données non triées/en retard
  • Atelier : Concevoir un pipeline de flux de données

Ingestion de volumes de variables

  • Qu’est-ce que Cloud Pub/Sub ?
  • Fonctionnement : Thèmes et abonnements
  • Atelier : Simulateur

Mise en oeuvre de pipelines par flux

  • Défis du traitement par flux
  • Gestion des données en retard : filigranes, déclenchements et accumulation
  • Atelier : Pipeline de traitement des données par flux pour le trafic en direct

Analyse de flux de données et tableaux de bords

  • Analyses de flux de données : prendre des décisions à partir des données
  • Interroger les données par flux avec BigQuery
  • Qu’est-ce que Google Data Studio ?
  • Atelier : Créer un tableau de bord en temps réel pour visualiser les données traitées

Haut débit et faible latence avec Bigtable

  • Qu’est-ce que Cloud Spanner ?
  • Concevoir un schéma Bigtable
  • Ingestion dans Bigtable
  • Atelier : Flux dans Bigtable
>

Moyens et Méthodes Pédagogiques

  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
  • Un poste par stagiaire
  • Formateur Expert
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage
>

Validation des acquis

  • Auto évaluation des acquis par le stagiaire via un questionnaire en fin de formation
  • Attestation de fin de stage remise avec la facture
Dates des sessions
Lieu
>19/01/2026
au
22/01/2026
Paris ou à Distance
>09/02/2026
au
12/02/2026
Paris ou à Distance
>09/03/2026
au
12/03/2026
Paris ou à Distance
Toutes les dates
Un Intra ?Une formation sur mesure ?
>19/01/2026
au
22/01/2026
Paris ou à Distance
>09/02/2026
au
12/02/2026
Paris ou à Distance
>09/03/2026
au
12/03/2026
Paris ou à Distance
>13/04/2026
au
16/04/2026
Paris ou à Distance
>18/05/2026
au
21/05/2026
Paris ou à Distance
>08/06/2026
au
11/06/2026
Paris ou à Distance
>22/06/2026
au
25/06/2026
Paris ou à Distance
>14/09/2026
au
17/09/2026
Paris ou à Distance
>28/09/2026
au
01/10/2026
Paris ou à Distance
>16/11/2026
au
19/11/2026
Paris ou à Distance
>07/12/2026
au
10/12/2026
Paris ou à Distance
Moins des dates
Un Intra ? Une formation sur mesure ?

Nos Clients

Logo Nativo Certification Qualiopi - Organisme de formation certifié
Localisation Nativo - 26-28 rue de Londres, 75009 Paris

Adresse :

26-28 rue de Londres
75009 Paris

Metro :

3
9
12
13
14
RER
A
E

Déclaration CNIL n° 1286285