Formation Hadoop à distance ou en intra

Présentation de la formation Hadoop

Plongez dans le monde du Big Data avec notre formation Hadoop de 4 jours. Découvrez les fondamentaux du framework Hadoop, y compris HDFS pour le stockage distribué et MapReduce pour le traitement de données massives. À travers des ateliers pratiques et des projets réels, vous apprendrez à configurer un cluster Hadoop, à exécuter des jobs de traitement et à optimiser les performances. Nos formateurs experts vous guideront pour maîtriser les concepts clés et appliquer Hadoop efficacement à vos besoins analytiques. Rejoignez notre formation pour transformer vos compétences en gestion et analyse de données à grande échelle.

Objectifs de la formation Hadoop

Objectifs pédagogiques :

Concevoir, exécuter et tester des programmes écrits avec Map/Reduce
Entrer et sortir des données de formats variés pour les traiter avec Hadoop
Utiliser Hive pour pouvoir interroger le système de fichiers HDFS avec un langage analogue à SQL
Utiliser Pig pour produire facilement des programmes Map-Reduce en langage de haut niveau

Objectifs opérationnels :

Développer des applications pour le Big Data

Programme de la formation Hadoop

Introduction

Problème des systèmes traditionnels à grande échelle
Qu’est-ce qu’Hadoop ?
Quels problèmes peut-on résoudre avec Hadoop ?
Les concepts fondamentaux et HDFS
Le projet Hadoop et ses composants
HDFS, le système de fichiers distribué

MapReduce

L'utilisation de MapReduce
L'analyse de données avec les outils Unix
L'analyse de données avec Hadoop
Mappers
Reducers
Combiners

Clusters Hadoop et écosystème

Cluster Hadoop : concepts
Jobs et tasks
Systèmes de fichiers
Programmation distribuée : MapReduce, Pig et Spark
Bases NoSQL : HBase et Cassandra
Accès SQL à Hadoop : Hive
Ingestion de données : Flume, Kafka et Sqoop
Planification des workflows Hadoop : Oozie
Machine Learning : Mahout et Weka

HDFS

Motivations et design
Blocs et nœuds
Interface en ligne de commande
Interface Java
Flux de données
HBase

Mise en place de clusters Hadoop

Spécification du cluster
Configuration et Installation
Configuration d’Hadoop
Configuration d’HDFS
Monitoring et logging
Maintenance

Entrer et sortir des données d’Hadoop

ingress et egress : éléments-clés
Entrer des données de log avec Apache Flume
Programmation des entrées de données avec Oozie
Importer/Exporter des données depuis des SGBDR avec Sqoop
MapReduce et XML
MapReduce et JSON
MapReduce et formats personnalisés

L’API Hadoop pour Java

Tests unitaires avec Hadoop
Pertinence des tests unitaires
Tester les mappers et reducers : JUnit et MRUnit
Execution des tests
LocalJobRunner

Pig

Faciliter l’écriture de programmes MapReduce avec Pig
L'installation et l'exécution
Le langage de script : Pig Latin
Les fonctions Utilisateurs (UDF)
Les opérateurs de traitement de données

Hive

Interroger et gérer de larges volumes de données avec Hive
L'installation
L'exécution
La comparaison avec les bases de données traditionnelles
HiveQL
Tables
L'interrogation des données
La fonction utilisateurs

Réalisation d’une application complète avec Hadoop, Pig et Hive

Pré-requis pour suivre la formation Hadoop

Expérience avec un langage de programmation comme Java, Python ou Scala
Compréhension des systèmes de fichiers et de la gestion des fichiers (en particulier des concepts de stockage distribué)
Connaissance de base des systèmes Unix/Linux
Notions sur les bases de données

Un questionnaire de positionnement vous sera ensuite proposé afin d'évaluer votre niveau de connaissance avant l'entrée en formation.

Participer à la formation Hadoop

Télécharger le programme

Formation en intra-entreprise

Nos formations intra-entreprise peuvent se dérouler directement dans vos locaux pour plus de flexibilité. Si nécessaire, nous pouvons également organiser la location d'une salle de formation adaptée à vos besoins.

Votre formation sur-mesure peut également s’organiser à distance.

La mise en place d'une session intra-entreprise est de 14 jours minimum à partir de votre prise de contact.

Je souhaite un devis