Formation Google Cloud Platform - Ingénierie de données
Objectifs
- Savoir concevoir et développer des systèmes de traitement de données sur Google Cloud Platform
- Savoir traiter des données par lot ou par flux en implémentant des pipelines de données d'autoscaling sur Cloud Dataflow
- Comprendre comment obtenir des informations métier à partir de très grands ensembles de données à l'aide de Google BigQuery
- Pouvoir établir des prédictions avec des modèles de Machine Learning en utilisant Tensorflow et Cloud ML
- Savoir tirer parti des données non structurées à l'aide de Spark et des API de Machine Learning sur Cloud Dataproc
- Comprendre comment activer Instant Insights à partir des données par flux
Public
- Développeurs expérimentés en charge des transformations du Big Data
Prérequis
- Avoir suivi la formation "Google Cloud Platform - Les fondamentaux du Big Data et du Machine Learning" (CC381) ou bénéficier d'une expérience équivalente
- Maîtriser les principes de base des langages de requête courants tels que SQL
- Avoir de l'expérience en modélisation, extraction, transformation et chargement des données
- Savoir développer des applications à l'aide d'un langage de programmation courant tel que Python
- Savoir utiliser le Machine Learning et/ou les statistiques
- Pour suivre cette formation dans des conditions optimales, nous vous recommandons de venir en formation avec un ordinateur portable
Programme
Présentation de Google Cloud Dataproc
- Créer et gérer des clusters
- Exploiter des types de machines personnalisés et des noeuds de calcul préemptifs
- Faire évoluer et supprimer des clusters
- Atelier : Créer des clusters Hadoop avec Google Cloud Dataproc
Exécution de tâches Dataproc
- Exécuter des tâches Pig et Hive
- Séparer le stockage et le calcul
- Atelier : Exécuter des tâches Hadoop et Spark avec Dataproc
- Atelier : Envoyer et surveiller des tâches
Intégrer Dataproc à Google Cloud Platform
- Personnaliser un cluster à l'aide d'actions d'initialisation
- Assistance BigQuery
- Atelier : Exploiter les services Google Cloud Platform
Analyse des données non structurées avec les API de Machine Learning de Google
- API de Machine Learning Google
- Cas d'utilisation courants du ML
- Appeler des API de ML
- Atelier : Ajouter les capacités de Machine Learning à l'analyse Big Data
Analyse des données sans serveur avec BigQuery
- Qu'est-ce que BigQuery ?
- Requêtes et fonctions
- Atelier : Écrire des requêtes dans BigQuery
- Charger des données dans BigQuery
- Exporter des données à partir de BigQuery
- Atelier : Charger et exporter des données
- Champs imbriqués et répétés
- Interroger plusieurs tables
- Atelier : Requêtes complexes
- Performances et tarification
Pipelines de données d'autoscaling sans serveur avec Dataflow
- Le modèle de programmation Beam
- Pipelines de données dans Beam Python
- Pipelines de données dans Beam Java
- Atelier : Écrire un pipeline Dataflow
- Traitement adaptable du Big Data avec Beam
- Atelier : MapReduce dans Dataflow
- Intégrer des données supplémentaires
- Atelier : Entrées secondaires
- Gérer des données par flux
- Architecture de référence GCP
Premiers pas avec le Machine Learning
- Qu'est-ce que le Machine Learning (ML) ?
- ML efficace : concepts et types
- Ensembles de données de ML : généralisation
- Atelier : Explorer et créer des ensembles de données de ML
Créer des modèles de ML avec TensorFlow
- Premiers pas avec TensorFlow
- Atelier : Utiliser tf.learn
- Graphiques et boucles TensorFlow + atelier
- Atelier : Utiliser TensorFlow de bas niveau + arrêt prématuré
- Surveiller l'apprentissage ML
- Atelier : Graphiques d'apprentissage TensorFlow
Faire évoluer les modèles de ML avec Cloud ML
- Pourquoi utiliser Cloud ML ?
- Créer le package d'un modèle TensorFlow
- Apprentissage de bout en bout
- Atelier : Exécuter un modèle de ML localement et sur le Cloud
Extraction de caractéristiques
- Créer des fonctionnalités pertinentes
- Transformer les entrées
- Fonctionnalités synthétiques
- Prétraitement avec Cloud ML
- Atelier : Extraction de caractéristiques
Architecture des pipelines d’analyse par flux
- Défis du traitement des données par flux
- Gérer les volumes de données variables
- Gérer les données non triées/en retard
- Atelier : Concevoir un pipeline de flux de données
Ingestion de volumes de variables
- Qu'est-ce que Cloud Pub/Sub ?
- Fonctionnement : Thèmes et abonnements
- Atelier : Simulateur
Mise en oeuvre de pipelines par flux
- Défis du traitement par flux
- Gestion des données en retard : filigranes, déclenchements et accumulation
- Atelier : Pipeline de traitement des données par flux pour le trafic en direct
Analyse de flux de données et tableaux de bords
- Analyses de flux de données : prendre des décisions à partir des données
- Interroger les données par flux avec BigQuery
- Qu'est-ce que Google Data Studio ?
- Atelier : Créer un tableau de bord en temps réel pour visualiser les données traitées
Haut débit et faible latence avec Bigtable
- Qu'est-ce que Cloud Spanner ?
- Concevoir un schéma Bigtable
- Ingestion dans Bigtable
- Atelier : Flux dans Bigtable
Certification
- Cette formation prépare au test suivant : Professional Data Engineer et entre en jeu dans le cursus de certification : Google Cloud Certified Professional Data Engineer
Moyens et Méthodes Pédagogiques
- La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
- Un poste par stagiaire
- Formateur Expert
- Remise d’une documentation pédagogique papier ou numérique pendant le stage
Validation des acquis
- Auto évaluation des acquis par le stagiaire via un questionnaire en fin de formation
- Attestation de fin de stage remise avec la facture