Présentation de la formation AWS – Data Engineering (Glue, Athena, Redshift, Lake Formation)
Plongez au cœur des architectures modernes de données avec cette formation de 3 jours. Vous apprendrez à construire un Data Lake sur AWS avec S3 et Lake Formation, à orchestrer des workflows ETL via AWS Glue, puis à interroger les données avec Athena et à les analyser à grande échelle avec Redshift. La sécurité, la gouvernance des accès et l'optimisation des coûts sont au centre des ateliers pratiques. Destinée aux data engineers et aux professionnels déjà familiarisés avec SQL et les services AWS de base, cette formation vous donne les compétences pour concevoir une plateforme de données robuste, évolutive et performante.
Objectifs de la formation AWS – Data Engineering (Glue, Athena, Redshift, Lake Formation)
Objectifs pédagogiques :
- Comprendre l’architecture d’un data lake sur AWS
- Mettre en place des pipelines ETL avec AWS Glue
- Analyser des données avec Amazon Athena et Redshift
- Utiliser Lake Formation pour gérer les accès et la gouvernance
- Appliquer les bonnes pratiques de sécurité et d’optimisation des coûts pour la data
Objectifs opérationnels :
- Concevoir et déployer une plateforme complète de données sur AWS : construire un Data Lake sécurisé, mettre en œuvre des pipelines ETL avec AWS Glue, analyser les données avec Athena, mettre en place un entrepôt via Redshift, et appliquer les meilleures pratiques de gouvernance, sécurité et optimisation des coûts.
Programme de la formation AWS – Data Engineering (Glue, Athena, Redshift, Lake Formation)
Jour 1 – Fondamentaux et ingestion de données
Introduction à l’ingénierie des données sur AWS
Concepts ETL, Data Lake, Data Warehouse
Architecture type Data Lake sur AWS
AWS Glue – ingestion et catalogage
Glue Data Catalog
Crawlers pour découvrir les schémas
Glue ETL Jobs (Python, PySpark)
Atelier pratique : ingestion de données brutes dans S3 et création d’un catalogue avec Glue
Jour 2 – Analyse interactive avec Athena et intégration S3
Amazon Athena
Requêtes SQL serverless sur S3
Optimisation des performances : partitionnement, formats (Parquet, ORC)
Intégration avec Glue Catalog
Sécurité et gouvernance
Fine-grained access control avec Lake Formation
Chiffrement des données (S3 + KMS)
Atelier pratique : exploration et analyse de données log stockées dans S3 avec Athena
Jour 3 – Data Warehousing avec Amazon Redshift
Amazon Redshift
Architecture MPP (Massively Parallel Processing)
Clusters, nœuds et types de stockage
Redshift Spectrum pour interroger directement S3
Optimisation et maintenance
Distribution keys, sort keys
Workload management et monitoring
Intégrations
Redshift + Glue + QuickSight pour la BI
Atelier pratique : déploiement d’un cluster Redshift, chargement de données depuis S3 et exécution de requêtes analytiques
Jour 4 – Gouvernance, orchestration et étude de cas
AWS Lake Formation
Mise en place d’un data lake sécurisé
Gestion des permissions et gouvernance centralisée
Orchestration des pipelines
Glue Workflows et intégration Step Functions
Automatisation avec CloudWatch Events
Étude de cas complet
Construire un pipeline de données de bout en bout : ingestion (Glue) → stockage (S3) → analyse (Athena/Redshift) → visualisation (QuickSight)
Préparation certification
AWS Certified Data Analytics Specialty : thématiques couvertes
Les autres formations en Data Engineering & Streaming

Big Data & Analytics avec Azure (Data Lake, Synapse, Databricks, Power BI)
Intégrer, transformer et visualiser des données massives avec les services Azure pour une analyse avancée

BigQuery & Data Warehouse Moderne
Exploiter BigQuery pour construire un entrepôt de données moderne : performance, modélisation & intégration BI

AWS – Big Data & Analytics (EMR, Kinesis, QuickSight)
Exploiter les services Big Data et Analytics d’AWS pour traiter et visualiser des données massives