Formation Dataflow & Streaming Analytics

Durée
3 jours
Tarif
Devis sur demande
Organisation
Intra
Référence
GCSA
Niveau
Moyen
CPF
NON
Certification
NON
Mise à jour
30/09/2025

Présentation de la formation Dataflow & Streaming Analytics

Explorez les architectures de traitements de données temps réel avec cette formation Dataflow & Streaming Analytics de 3 jours. Vous apprendrez les différences entre traitement batch et streaming, puis utiliserez Apache Beam pour concevoir vos pipelines de données, connectés à Pub/Sub, Cloud Storage et BigQuery. Vous maîtriserez la gestion des fenêtres, des triggers, de la latence, et les stratégies d’intégration avancées (jointures, enrichissement). Vous aborderez également la surveillance, la sécurité, l’optimisation des performances et des coûts pour des pipelines en production. Les ateliers concrets vous permettront de construire une solution complète de bout en bout, du flux de données à l'analyse.

Objectifs de la formation Dataflow & Streaming Analytics

Objectifs pédagogiques :

  • Comprendre les concepts du traitement batch et streaming dans GCP
  • Découvrir l’écosystème de traitement de données temps réel : Pub/Sub, Dataflow, BigQuery
  • Construire et gérer des pipelines de données avec Apache Beam et Dataflow
  • Superviser, sécuriser et optimiser des flux de données en production

Objectifs opérationnels :

  • Concevoir, déployer et exploiter un pipeline de données en temps réel sur GCP : ingestion via Pub/Sub, traitement avec Dataflow et Apache Beam, stockage dans BigQuery, et supervision / optimisation des performances et des coûts.

Programme de la formation Dataflow & Streaming Analytics

Jour 1 – Fondamentaux du Streaming & Dataflow

Introduction au traitement de données : batch vs streaming, différences, cas d’usage

Présentation de l’écosystème Data GCP : Pub/Sub, Dataflow, BigQuery, Dataproc

Apache Beam Fundamentals : PCollections, PTransforms, Pipelines

Sources & Sinks (Cloud Storage, Pub/Sub, BigQuery)

Fenêtrage et parallélisme

Introduction à Dataflow : architecture serverless et gestion des workers

Différences entre Dataflow et Spark/Hadoop

Projet pratique : créer un pipeline Dataflow batch (CSV depuis Cloud Storage vers BigQuery). Vérification des coûts et logs

Jour 2 – Streaming temps réel & Intégrations avancées

Ingestion en temps réel avec Pub/Sub : publishers, subscribers, topics, subscriptions

Intégration avec Dataflow

Pipelines Dataflow pour le streaming : fenêtrage (fixed, sliding, session), triggers, gestion du retard (lateness), watermarks

Enrichissement et transformation des données : jointures stream-stream, stream-batch, nettoyage et normalisation

Intégrations multi-services : BigQuery (analytique temps réel), Cloud Storage (archivage), Looker Studio (visualisation)

Projet pratique : pipeline Pub/Sub → Dataflow → BigQuery pour ingestion temps réel de logs applicatifs

Jour 3 – Supervision, Optimisation & Cas pratiques

Supervision & Debugging : utiliser la console Dataflow, logs et métriques (latence, throughput), Stackdriver Logging

Optimisation des performances et coûts : autoscaling horizontal, parallélisme, bonnes pratiques pour limiter les coûts

Sécurité et IAM : rôles et permissions nécessaires pour Dataflow et Pub/Sub, gestion des secrets et accès sécurisés

Monitoring avec Cloud Logging et Cloud Monitoring

Projet fil rouge : mise en place d’un pipeline temps réel complet avec ingestion Pub/Sub, traitement Dataflow et stockage BigQuery. Visualisation des données via Looker Studio. Analyse des coûts et mise en place d’alertes

Pré-requis pour suivre la formation Dataflow & Streaming Analytics

  • Connaissances de base en SQL et bases de données
  • Notions de Python ou Java (Apache Beam
  • Familiarité avec les services GCP (BigQuery, Cloud Storage)

Un questionnaire de positionnement vous sera ensuite proposé afin d'évaluer votre niveau de connaissance avant l'entrée en formation.

Participer à la formation Dataflow & Streaming Analytics

Télécharger le programme

Formation en intra-entreprise

Nos formations intra-entreprise peuvent se dérouler directement dans vos locaux pour plus de flexibilité. Si nécessaire, nous pouvons également organiser la location d'une salle de formation adaptée à vos besoins.

Votre formation sur-mesure peut également s’organiser à distance.

La mise en place d'une session intra-entreprise est de 14 jours minimum à partir de votre prise de contact.

Je souhaite un devis

Formation Dataflow & Streaming Analytics

  • Certification Non
  • Modalités d'évaluation Tout au long de la formation des TPs seront notés et corrigés. Un QCM sera rempli en fin de formation.

Les autres formations en Data Engineering & Streaming

Intra 3 jours A partir de 1290 € HT/j
Voir la formation AWS – Data Engineering (Glue, Athena, Redshift, Lake Formation)
Intra 3 jours A partir de 1290 € HT/j
Voir la formation Big Data & Analytics avec Azure (Data Lake, Synapse, Databricks, Power BI)
Intra 3 jours A partir de 1290 € HT/j
Voir la formation BigQuery & Data Warehouse Moderne
Intra 4 jours A partir de 1290 € HT/j
Voir la formation AWS – Big Data & Analytics (EMR, Kinesis, QuickSight)