Informatique Informatique
Référence formation : 4-IT-HADO - Durée : 2 jours

 
  • Objectifs
  • Pré-requis
  • Pédagogie
Découvrir les concepts et les enjeux liés à HadoopComprendre le fonctionnement de la plateforme et de ses composant
Administrateurs de cluster Hadoop, développeurs, data scientisteBonnes connaissances de l'administration Linux

Méthodes pédagogiques

Présentation des concepts, démonstration, exécution, synthèse et exercices pratiques d'assimilation

Modalités pédagogiques

Présentiel - Distanciel - AFEST

Moyens pédagogiques

Formateur expert du domaine - 1 ordinateur, 1 support de cours version papier ou numérique, un bloc-note et un stylo par personne - vidéo projecteur - tableau blanc

Modalités d'évaluation

Positionnement préalable oral ou écrit - Evaluation formative tout au long de la formation - Evaluation sommative faite par le formateur ou à l'aide de la certification NULL

Public concerné

Salariés - Demandeur d'emploi - Reconversion professionnelle

Si vous êtes en situation de handicap, vous pouvez joindre notre référent Handicap. Voir notre fiche Accès correspondante.

Contenu pédagogique

Introduction à Hadoop

  • Présentation générale d’Hadoop
  • Exemples d’utilisation dans différents secteurs
  • Historique et chiffres clés : Quand parle-t-on de Big Data ?

L'écosystème d'Hadoop

  • Le système de fichier HDFS
  • Le paradigme MapReduce et l’utilisation à travers YARN

Manipulation des données dans un cluster Hadoop

  • Hue : Comment fonctionne cette interface web ?
  • Hive : Pourquoi Hive n’est pas une base de données ?

Requête sur Hive

  • Utilisation de HCatalog
  • Utilisation avancée sur Hive
  • Utilisation de fonctions utilisateurs
  • Paramétrage de requête
  • Pig : Fonctionnement de Pig

Programmation avec Pig Latin

  • Utilisation du mode Local
  • Utilisation de fonctions utilisateurs
  • Tez : Qu’est-ce que Tez ?

Comment et quand l’utiliser ?

  • Oozie : Fonctionnement de Oozie

Création de Workflows avec Oozie

  • Manipulation des workflows
  • Ajout d’éléments d’exploitation dans les workflows
  • Ajout de conditions d’exécution
  • Paramétrage des workflows
  • Sqoop : A quoi sert Sqoop ?

Chargement des données depuis une base de données relationnelle

  • Chargement des données depuis Hadoop
  • Utilisation et paramétrage avancée
  • Les particularités des distributions : Impala, Hawq
  • Quelles sont les bonnes pratiques d’utilisation des différents outils ?