MANAGEMENT INFORMATIQUE

Plateforme Hortonworks

Nouvelle page 3

Notre sociÃ©tÃ© MANAGEMENT INFORMATIQUE rÃ©alise aussi des missions d'architecture technique de systÃ¨mes Big Data.

Nos prestations consistent Ã apporter notre expertise sur les distributions HadoopÂ : Hortonworks, Cloudera HDP, MAPR, dÃ©finition des besoins, matrice de critÃ¨res, choix de logiciels rÃ©pondant aux besoins, rÃ©daction de dossiers d'architecture technique, tests sur machine virtuelle, validation des solutions prÃ©conisÃ©es.

A la demande du client la prestation est adaptÃ©e selon les besoins du client, son architecture spÃ©cifique, son environnement rÃ©seau, machines / serveurs, logiciels dÃ©jÃ existants.

Â

Rappel historiqueÂ :Â

le 21 Juin 2017, IBM met un terme Ã sa distribution Hadoop, BigInsights 4.Â Â Hortonworks vend la suite dâ€™outils analytiquesÂ Data Science ExperienceÂ dâ€™IBM mais aussiÂ BigSQLÂ le moteur de requÃªte SQL-on-Hadoop.

le 21 Mars 2019, une nouvelle plateforme Ã©tait annoncÃ©eÂ CDPÂ : Cloudera Data Platform rÃ©sultat de la fusion entre Cloudera et Hortonworks.Â

Cette plateforme intÃ¨gre le meilleur des fonctionnalitÃ©s clÃ© deÂ HDPÂ : Horton Data Platform et deÂ CDHÂ : Cloudera Data Hub. La v1 de CDP est disponible en Juin 2019 sur les Clouds publics dâ€™AWS et de Microsoft Azure.

RÃ¨gle des 3VÂ

constitue un Ã©lÃ©ment essentiel du Big Data :

. La volumÃ©trie trÃ¨s importante des donnÃ©es,

. La variÃ©tÃ© des sources de donnÃ©es

. La vÃ©locitÃ© des traitements de collecte, de stockage et de partage des donnÃ©es.

Ces 3 Ã©lements constituent une composante fondamentale du Big Data.

Les Besoins des clients :

Quantité de données importantes contenant potentiellement de la valeur ajoutée, en sommeil ou qui n'est plus utilisée à cause de considérations de taille et de performances

Volumes importants de données non structurées ou semi-structurées qui ne s'intègrent pas facilement : Tweets, logs...

Pas évident de savoir ce qui doit être analysé.

L'information est distribuée sur plusieurs serveurs et/ou internet.

Certaines infos ont une durée de vie courte.

Les volumes peuvent devenir extrèmement importants.

Une analyse est nécessaire dans le contexte des infos existantes.

Â

Â

Avantages du Big Data et de lâ€™analyse de donnÃ©esÂ :

Pouvoir traiter et stocker rapidement des volumétries de données très grandes, des données de nature différente Images, vidéos, textuelles, vocales, structurées, non structurées, capteurs, IoT, infos temps réel, logs

Bien adapté à l'IA et au Machine Learning, les plateformes Big Data permettent d'explorer un nombre de combinaisons très important et donc d'obtenir des prédictions plus fiables. Lâ€™exhaustivitÃ© des rÃ©ponses augmente la confiance dans les donnÃ©es. Cela permet dâ€™adopter une mÃ©thode de rÃ©solution des problÃ¨mes radicalement diffÃ©rente.

L'extensibilité des systèmes de stockage : conteneurs, virtualisation permet d'adapter rapidement les SI à l'augmentation des volumétries notamment en Cloud.

De nouveaux modes de communication sont apparus au 21ième siècle sont apparus : réseaux sociaux notamment. Le Big Data permet le stockage de données perso de millions d'individus, réparties virtuellement en différents datacenters.

InconvÃ©nients du Big DataÂ :

Demande l'installation d'infrastructures importantes pour stocker ces volumÃ©tries importantes.

Parfois le Cloud peut Ãªtre une solution avantageuse pour faire des POC ou des tests de logiciels Hadoop.

La prolifération des Datacenters dans le monde ( même sous-marins ) consomme une énergie importante, qui est quantifiable aujourd'hui.

Â

RÃ©sumÃ© des logiciels Big DataÂ distribution Hortonworks:

Logo

Logiciel

Description

Â

Console dâ€™administration Ambari
(*) Ambari is a locality in Guwahati, India
Ambari est la console dâ€™administration de la plateforme Hadoop Hortonworks

Ambari ne se limite pas Ã Hadoop mais permet de gÃ©rer Ã©galement les outils de lâ€™Ã©cosystÃ¨me.

Les outils annoncÃ©s sont :

Â HDFS

Â Hadoop 1.0 uniquement, la version 2.0 devrait

Â Â Â Ãªtre supportÃ©e courant Juin

Â MapReduce

Â Hive, HCatalog

Â Oozie

Â HBase

Â Ganglia, Nagios

Tous les outils de la distribution dâ€™HortonWorks

Ambari comprend 2 composantsÂ :

un serveur

des agents installÃ©s sur chaque machine du cluster

Ambari fournit un dashboard dont le rÃ´le est de fournir un rÃ©sumÃ© :

Â Â de lâ€™Ã©tat des services

Â des informations issues de Ganglia et de Nagios
Â de lâ€™exÃ©cution des jobs
Â

Ganglia 3.7.2
(*) Ganglia tire son origine en anatomie de ganglion
Ganglia est un moniteur de systÃ¨me distribuÃ© extensible utilisÃ© par des composants Ã hautes performances tels que des clusters ou des grids.

Son but est de permettre Ã l'utilisateur de visualiser des statistiques Ã distance ( temps rÃ©el ou historisÃ©es ) telles que des moyennes de temps de chargement CPU ou sur l'utilisation du rÃ©seau ) pour toutes les machines qui doivent Ãªtre suivis.

Nagios 4.4.4
(*) Nagios tire son origine de NetSaint
Nagios est un logiciel Open Source permettant le monitoring du systÃ¨me, du rÃ©seau et de l'infrastructure.
Nagios offre le monitoring et les services d'alerte pour les serveurs, les switches, les applications, et les services. Il alerte les utilisateurs quand quelque chose se passe mal et les alerte une 2iÃ¨me fois quand l'incident a Ã©tÃ© rÃ©solu.

HDFS

Hadoop Distributed File SystemÂ : SystÃ¨me de gestion de Fichiers de Hadoop

HDFS est le systÃ¨me de fichier distribuÃ© deÂ Hadoop Apache. Il sâ€™agit dâ€™un composant central du Framework de Apache, et plus prÃ©cisÃ©ment de son systÃ¨me de stockage.Â

Architecture MaÃ®tre / esclaveÂ : chaque cluster comprend un NameNode ( serveur principal ) Â Chaque nÅ“ud comprend aussi un ou plusieurs DataNodes sur lesquels sont stockÃ©s les donnÃ©es.

Architecture de HDFS :

DÃ©marrage NameNodeÂ :

Â

Ajout dâ€™un fichier Ã HDFSÂ : rÃ©plication en mode pipeline

GÃ©rer le clusterÂ :

Ajout dâ€™un DataNode

Suppression dâ€™un DataNode

ContrÃ´le de lâ€™Ã©tat de santÃ© du filesystem

Yarn (MR2)
Architecture HadoopÂ : HDFS / YARN / SPARK / MapReduce
YARNÂ : systÃ¨me dâ€™exploitation de Hadoop permet de gÃ©rer des ressources et de planifier des jobs dans Hadoop. YARN vous permet dâ€™utiliser diffÃ©rents moteurs de traitement de donnÃ©es de type batch, interactive, streaming de donnÃ©es stockÃ©es dans HDFS. Vous pouvez utiliser Hive pour le SQL, Spark pour les applications in-memory et Storm pour les applications de streaming, toutes sur le mÃªme cluster Hadoop.

YARN supporte aussi la conteneurisation sous Docker, ce qui facilite le packaging et la distribution dâ€™applications.

Evolution de Hadoop v1 Ã Hadoop v2Â :

Le principal changement entre Hadoop 1.0 et Hadoop 2.0 est la sÃ©paration de la fonction cluster Resource Management & data processing en 2 fonctions distinctesÂ : YARN et MR2

Architecture de YARN :

Spark 2.4.3
30 Avril 2019
Architecture de SparkÂ :

Spark core est au centre de la pile unifiÃ©e de Spark ( Spark Unified Stack) Le Spark core est un systÃ¨me gÃ©nÃ©ral qui permet de planifier, de distribuer et de faire le monitoring des applications Ã travers un cluster.

- ConÃ§u pour s'Ã©tendre Ã des miliers de noeuds. Il peut tourner sur une variÃ©tÃ© de gestionnaires de clusters incluant Hadoop YARN et Apache Mesos, ou plus simplement, il peut tourner en standalone avec son propre built-in scheduler.

- Contient des fonctionnalitÃ©s de base Spark demandÃ©es pour faire tourner des jobs et nÃ©cessaires pour les autres composants. Le plus important est le concept RDD ( Resilient Distributed Dataset), le principal Ã©lÃ©ment de Spark API. RDD est une abstraction d'une collection distribuÃ©e d'Ã©lÃ©ments avec des opÃ©rations et des transformations applicables au fichier. Il est rÃ©silient car en cas d'erreurs sur des noeuds il est capable de reconstruire des fichiers.

Grandes fonctions de Spark :

â€¢ Spark SQL est conÃ§u pour fonctionner avec Spark via SQL et HiveQL (une variante Hive de SQL). Spark SQL pemet aux developers d'appeler SQL via des langages de programmation tels queÂ Python, Scala, and Java.

â€¢ Spark Streaming permet le traitement de flux de donnÃ©es ( streams ). L'API Spark StreamingÂ se rapporche de l'API Sparks Core's, rendant le travail plus facile pour les dÃ©veloppeurs notamment pour dÃ©placer entre les applications ce que les donnÃ©es stockÃ©es par les process en mÃ©moire.

â€¢ MLlib est une library de Machine Learning qui fournit de multiples algorithmes de machine. Exemples : rÃ©gression logistique, naive Bayes classification, SVM, arbres de dÃ©cision, random forests, rÃ©gression linÃ©aire, k-means clustering.

â€¢ GraphX est une library graphique avec des APIs faites pour manipuler des graphiques et faire du traitement parallÃ¨le d donnÃ©es graphiques. GraphX fournit des fonctions pour construire des graphiques et des implÃ©mentations des algorithmes les plus importants de la thÃ©orie des graphes, tels que ordonnancement des pages seon le rang, composants connectÃ©s, chemins d'accÃ¨s les plus courts possibles.

"Si vous comparez les fonctionnalitÃ©s des composants de Spark avec les outils de l'ecosystÃ¨me Hadoop, vous pouvez constater que certains outils sont superflus.

Par exemple,
>>> Apache Storm peut Ãªtre remplacÃ© par Spark Streaming,
>>> Apache Giraph peut Ãªtre remplacÃ© par Spark GraphX
>>> Spark MLlib peut Ãªtre utilisÃ© Ã la place de Apache Mahout.
>>> Apache Pig, et Apache Sqoop ne sont plus ncessaires davantage,
Â Â Â Â Â Â et les mÃªmes fonctionnalitÃ©s sont couvertes par Spark Core et Spark SQL.

Mais dans le cas oÃ¹ vous avez encore des worflows Pig et oÃ¹ vous avez besoin de faire tourner Pig, le projet Spark vous autorise Ã lancer du Pig sur Spark.

Â

Les shells et jobs SparkÂ :
Les jobs Spark peuvent Ãªtre Ã©crits en Scala, Python ou JavaÂ ; les API sont dispo pour ces 3 langages.

Les shells Spark sont Ã©crits en Scala ( spark-shell), et en Python ( pyspark )

Le langage natif de Spark est Scalla, alors il est naturel dâ€™Ã©crire les applications Spark en utilisant Scala.

Â

Ce cours prÃ©sentera des exemples de code Scala, Python, et Java.

Exemples disponibles sur le site GitHuB:

â€¢ Scala:
https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples

â€¢ Python:
https://github.com/apache/spark/tree/master/examples/src/main/python

â€¢ Java:
https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples

â€¢ Spark Streaming:
https://github.com/apache/spark/tree/master/examples/src/main/scala/org/apache/spark/examples/streaming

â€¢ Java Streaming:
https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples/streaming

Les cours Spark Fundamentals sont disponibles surÂ :
Â Â http://bigdatauniversity.com/bdu-wp/bducourse/spark-fundamentals

Typologies de DonnÃ©es

DonnÃ©es au repos :

. Solution: Utiliser des commandes standards HDFS : hadoop fs -copyFromLocal ou -put

DonnÃ©es en mouvement :

. Logs gÃ©nÃ©rÃ©s par plusieurs serveurs constamment modifiÃ©s

. DonnÃ©es stockÃ©es Ã plusieurs endroits devant Ãªtre fusionnÃ©es.

. Solution : utiliser Flume ou Kafka

DonnÃ©es depuis une BDD RDBMS ou un Datawarehouse:

. Utiliser Sqoop avec des commandes d'export standard sous forme de fichiers dÃ©limitÃ©s CSV, puis utiliser des commandes Hadoop.

Â

DonnÃ©es depuis un serveur web ou un serveur Log ( en temps rÃ©el ) :

. Utiliser Flume ou JMX

. Apache Kafka

. Splunk

. Spark Streaming

Â

Sqoop

Grandes fonctions de Sqoop :

â€¢ Transfert de donnÃ©es entre Hadoop et des bases de donnÃ©es relationnelles : utilise JDBC, il faut recopier les drivers JDBC de la BDD relationnelle dans le rÃ©pertoire $SQOOP_HOME/lib

â€¢ Utilise MapReduce pour importer et exporter les donnÃ©es.

En Mode Commande :

Consulter Apache Sqoop Cookbook sur Amazon

â€¢ Sqoop import : pour importer des tables individuelles de RDBMS dans HDFS. Chaque ligne d'une table est convertie en 1 record d'un fichier dans HDFS.

Tous les records sont stockÃ©s dans des fichiers texte dans des fichiers sÃ©quentiels ou Avro.

â€¢ Sqoop export : pour exporter un ensemble de fichiers de HDFS dans une base de donnÃ©es RDBMS. Les fichiers lus par Sqoop contiennent des enregistrements

qui sont appelÃ©s lignes des tables.

Sqoop fonctionne uniquement sous Linux.

Â

Flume

Latin: Flumen, flumenis : riviÃ¨re

Comment fonctionne Flume ?

â€¢ ConÃ§u sur le principe des flux continus entre la source et la cible.

â€¢ Les flux peuvent Ãªtre initalisÃ©s par des batchs ou autres process

â€¢ C'est un service distribuÃ©, connectable pour collecter, agrÃ©ger et dÃ©placer des volumes de donnÃ©es importants.

â€¢ SQOOP a une Architecture simple et adaptable basÃ©e sur les fluxx de donnÃ©es en streaming. C'est un outil robuste, Ã tolÃ©rance de pannes et dotÃ© de mÃ©canismes de failover et de reprise sur panne.

Les flux sont constituÃ©s de noeuds reliÃ©s les uns aux autres

â€¢ Chaque noeud reÃ§oit les donnÃ©es en tant que source, les stocke sur un canal et les envoie via un process appelÃ© ''sink''

â€¢ Exemples de sources : Avro source, Exec source, Spooling Directory source, Syslog Source, HTTP source, JSONHandler Source...

â€¢ Exemple d'Interceptors : Flume donne la possibilitÃ© de modifier ou supprimer des Ã©vÃ¨nements Ã la volÃ©e. Il est possible de rajouter dans l'entÃªte de l'Ã©vÃ¨nements des infos de Timestamp, le nom de l'hÃ´te ou l'adresse IP, des valeurs statiques, un filtrage par masque pour le corps de l'Ã©vÃ¨nement, un extracteur de groupes Ã partir du corps de l'Ã©vÃ¨nement, personalisable.

â€¢ Exemples de sinks : HDFS sink qui Ã©crit des Ã©vÃ¨nements sur HDFS, Logger sink : Ã©crit des Ã©vÃ¨nements LOG niveau INFO, HBaseSInk : Ã©crit des donnÃ©es dans la BDD HBase, ElasticSearchSink: Ã©crit des donnÃ©e dans le BDD ElasticSearch

â€¢ Exemples de canal / canaux utilisÃ©(s) par FLume: canal mÃ©moire, canal JDBC, canal Fichier, canal personnalisÃ©: interface personalisÃ©e

Â

Â

Apache Kafka

Une plateforme distribuÃ©e et temps rÃ©el pour le Streaming gÃ©nÃ©ralement uytilisÃ©e pour 2 types d'applications :

- Flux de donnÃ©es en mode pilpeline qui relient les systÃ¨mes

- Applications temps rÃ©el alimentÃ©es en Streaming qui transforme les flux de donnÃ©es

Â

CaractÃ©ristiques :

- Solution Open source
- Haut dÃ©bit
- Faible latence
- TolÃ©rance aux pannes
- DurabilitÃ©
- Architecture Ã©volutive et distribuÃ©eÂ
- VariÃ©tÃ© des cas d'utilisation
- Connection Ã divers sources de donnÃ©es grÃ¢ce Ã Kafka Connect
- Transformation desÂ donnÃ©es avec Kafka Stream

Comment fonctionne Kafka ?

Producers API : permet Ã une application source de publier un flux de donnÃ©es vers 1 ou plusieurs Topics.

Consumer API : autorise une application Ã souscrire un abonnement Ã 1 ou plusieurs Topics.

Streams API : autorise une application Ã agir en tant que processeur de flux, qui va consommer un flux d'entrÃ©e depuis 1 ou plusieurs Topics

et Ã produire un flux de sortie, aprÃ¨s avoir transgformÃ© les flux d'entrÃ©e en flux de sortie.

Connector API : autorise Ã construire et Ã exÃ©cuter des producers et des consumers rÃ©utilisables qui se connectent aux topic Kafka.

1 Topic : un flux d'enregistrements.

Â

Apache Oozie

Workflow Scheduler for Hadoop :

. Scheduler de jobs Apache Hadoop

. Les jobs de flux de donnÃ©es : sont des Graphes Acycliques ( DAGs : Direct Acyclic Graphs )

. Les jobs de coordination de Oozie : sont des jobs rÃ©curents Ã des dates donnÃ©es et selon la disponibilitÃ© des donnÃ©es.

. Oozie est intÃ©grÃ© avec le reste de la pile Hadoop et supporte diffÃ©rent types de jobs Hadoop tels que MapReduce Java, MapReduce Streaming, Pig, Hive, Sqoop et Distcp, aussi bien que des jobs spÃ©cifiques tels que Java et des scripts Shell.

. Oozie est scalable, reliable et extensible.

Â

Apache Knox

Logiciel Gateway Reverse proxy pour interagir avec les clusters Hadoop :

Fonctions principales :

. Interaction avec les interfaces utilisateur : Apache Ambari, Apache Ranger

. Authentification avec les annuaires d'entreprise : LDAP, AD...

. Federation SSO ( FÃ©dÃ©ration d'identitÃ©s basÃ©s sur Header HTTP )

. Gestion des Droits d'accÃ¨s

. Audit

Â

La passerellet Knox est un framework joue un rÃ´le :

. de Reverse Proxy

. SÃ©curitÃ© Ã©levÃ©e car appel depuis ce serveur de Web Services REST API et HTTP permettant d'ineragir avec les clusters Hadoop.

. AccÃ¨s supportÃ©s : HTTP(S), cURL, Knox Shell (DSL), SSL...

. AccÃ¨s simplifiÃ© grÃ¢ce aux services encapsulÃ©s avec Kerberos et l'utilisation d'un certificat SSL unique.

Â