{Le lien de téléchargement a expiré. Veuillez actualiser la page et réessayer.}

Outils Hadoop - Maîtriser le Big Data efficacement

Big Data PDF 107 pages 1.05 Mo 3,612
Outils Hadoop - Maîtriser le Big Data efficacement
PDF 107 p. 1.05 Mo
Télécharger

Lien sécurisé — 5 min

par Pierre Nerzic

À propos de ce cours

  • Principes du « Map-Reduce »
    • Introduction, Algorithmes « Map-Reduce »
    • Map Reduce dans Hadoop, YARN et MapReduce
    • Mise en œuvre dans Hadoop
  • Approfondissement sur MapReduce
    • Jobs MapReduce, Types des clés et valeurs .
    • Efficacité, Entre Map et Reduce
    • MapReduce dans d’autres langages,Hadoop File System HDFS  
  • Étude de cas MapReduce
    • Calcul de la variance, Calcul d’une médiane 
  • Pig
    • Introduction, Langage Pig Latin
    • Instructions Pig, Conclusion
  • Spark
    • Introduction, Éléments de l’API Spark .
  • SparkSQL
    • SparkSQL,API SparkSQL  
  • HBase
    • Introduction, Travail avec HBase, API de HBASE .
  • Hive

Programme du cours

Objectifs d'apprentissage

  • Maîtriser les principes fondamentaux du modèle de programmation MapReduce et son implémentation dans Hadoop.
  • Comprendre l'architecture YARN et son rôle dans l'exécution des tâches MapReduce.
  • Apprendre à concevoir et optimiser des algorithmes MapReduce pour le traitement efficace de grands volumes de données.
  • Découvrir les outils complémentaires à l'écosystème Hadoop comme Pig, Spark, HBase et Hive.
  • Savoir implémenter des solutions Big Data complètes en combinant différents outils Hadoop selon les besoins.
  • Acquérir des compétences pratiques grâce à des études de cas concrètes (calcul de variance, médiane, etc.).

Public cible

Ce cours s'adresse aux ingénieurs data, développeurs Big Data, analystes et scientifiques des données souhaitant approfondir leurs connaissances sur l'écosystème Hadoop. Une connaissance de base en programmation (Java ou Python) et des concepts fondamentaux du Big Data est recommandée. Les professionnels en reconversion dans le domaine du traitement de données massives trouveront également ce cours particulièrement utile.

Principes du MapReduce

Le module commence par une introduction approfondie au paradigme MapReduce, fondement du traitement distribué dans Hadoop. Les participants découvriront les algorithmes typiques utilisant ce modèle et son implémentation concrète via l'écosystème Hadoop. Une attention particulière sera portée sur l'architecture YARN (Yet Another Resource Negotiator) qui gère les ressources cluster et orchestre l'exécution des jobs MapReduce.

Approfondissement sur MapReduce

Cette section explore les aspects avancés des jobs MapReduce : typage des clés/valeurs, optimisation des performances et techniques pour améliorer l'efficacité entre les phases Map et Reduce. Les participants apprendront également comment utiliser MapReduce avec différents langages de programmation et interagir avec HDFS (Hadoop Distributed File System), le système de stockage distribué de Hadoop.

Étude de cas MapReduce

Des cas pratiques permettront d'appliquer les concepts théoriques, notamment pour le calcul statistique de variance et de médiane sur des jeux de données massifs. Ces exercices montreront comment concevoir des solutions MapReduce efficaces pour des problèmes analytiques complexes.

Outils complémentaires

Le cours couvre ensuite les principaux outils de l'écosystème Hadoop :

  • Pig : Langage de haut niveau (Pig Latin) pour simplifier l'écriture de pipelines de traitement
  • Spark : Framework de calcul distribué in-memory avec son API riche
  • SparkSQL : Module Spark pour le traitement de données structurées
  • HBase : Base de données NoSQL distribuée et son API Java
  • Hive : Système d'entrepôt de données permettant des requêtes de type SQL

Chaque outil sera présenté avec ses cas d'usage typiques, avantages et limites. Des travaux pratiques permettront aux participants de comparer ces différentes approches pour choisir la meilleure solution selon leurs besoins spécifiques en traitement de données.

À l'issue de cette formation, les participants maîtriseront les outils clés de l'écosystème Hadoop et sauront les utiliser en combinaison pour résoudre des problèmes complexes de traitement de données massives dans des environnements professionnels.