Présentation de la formation Dataflow & Streaming Analytics
Explorez les architectures de traitements de données temps réel avec cette formation Dataflow & Streaming Analytics de 3 jours. Vous apprendrez les différences entre traitement batch et streaming, puis utiliserez Apache Beam pour concevoir vos pipelines de données, connectés à Pub/Sub, Cloud Storage et BigQuery. Vous maîtriserez la gestion des fenêtres, des triggers, de la latence, et les stratégies d’intégration avancées (jointures, enrichissement). Vous aborderez également la surveillance, la sécurité, l’optimisation des performances et des coûts pour des pipelines en production. Les ateliers concrets vous permettront de construire une solution complète de bout en bout, du flux de données à l'analyse.
Objectifs de la formation Dataflow & Streaming Analytics
Objectifs pédagogiques :
- Comprendre les concepts du traitement batch et streaming dans GCP
- Découvrir l’écosystème de traitement de données temps réel : Pub/Sub, Dataflow, BigQuery
- Construire et gérer des pipelines de données avec Apache Beam et Dataflow
- Superviser, sécuriser et optimiser des flux de données en production
Objectifs opérationnels :
- Concevoir, déployer et exploiter un pipeline de données en temps réel sur GCP : ingestion via Pub/Sub, traitement avec Dataflow et Apache Beam, stockage dans BigQuery, et supervision / optimisation des performances et des coûts.
Programme de la formation Dataflow & Streaming Analytics
Jour 1 – Fondamentaux du Streaming & Dataflow
Introduction au traitement de données : batch vs streaming, différences, cas d’usage
Présentation de l’écosystème Data GCP : Pub/Sub, Dataflow, BigQuery, Dataproc
Apache Beam Fundamentals : PCollections, PTransforms, Pipelines
Sources & Sinks (Cloud Storage, Pub/Sub, BigQuery)
Fenêtrage et parallélisme
Introduction à Dataflow : architecture serverless et gestion des workers
Différences entre Dataflow et Spark/Hadoop
Projet pratique : créer un pipeline Dataflow batch (CSV depuis Cloud Storage vers BigQuery). Vérification des coûts et logs
Jour 2 – Streaming temps réel & Intégrations avancées
Ingestion en temps réel avec Pub/Sub : publishers, subscribers, topics, subscriptions
Intégration avec Dataflow
Pipelines Dataflow pour le streaming : fenêtrage (fixed, sliding, session), triggers, gestion du retard (lateness), watermarks
Enrichissement et transformation des données : jointures stream-stream, stream-batch, nettoyage et normalisation
Intégrations multi-services : BigQuery (analytique temps réel), Cloud Storage (archivage), Looker Studio (visualisation)
Projet pratique : pipeline Pub/Sub → Dataflow → BigQuery pour ingestion temps réel de logs applicatifs
Jour 3 – Supervision, Optimisation & Cas pratiques
Supervision & Debugging : utiliser la console Dataflow, logs et métriques (latence, throughput), Stackdriver Logging
Optimisation des performances et coûts : autoscaling horizontal, parallélisme, bonnes pratiques pour limiter les coûts
Sécurité et IAM : rôles et permissions nécessaires pour Dataflow et Pub/Sub, gestion des secrets et accès sécurisés
Monitoring avec Cloud Logging et Cloud Monitoring
Projet fil rouge : mise en place d’un pipeline temps réel complet avec ingestion Pub/Sub, traitement Dataflow et stockage BigQuery. Visualisation des données via Looker Studio. Analyse des coûts et mise en place d’alertes
Les autres formations en Data Engineering & Streaming

AWS – Data Engineering (Glue, Athena, Redshift, Lake Formation)
Construire des pipelines de données et un data lake sur AWS pour l’analyse et la BI

Big Data & Analytics avec Azure (Data Lake, Synapse, Databricks, Power BI)
Intégrer, transformer et visualiser des données massives avec les services Azure pour une analyse avancée

BigQuery & Data Warehouse Moderne
Exploiter BigQuery pour construire un entrepôt de données moderne : performance, modélisation & intégration BI

AWS – Big Data & Analytics (EMR, Kinesis, QuickSight)
Exploiter les services Big Data et Analytics d’AWS pour traiter et visualiser des données massives