Hadoop 2.3.0 : améliorations notables du HDFS

05/03/2014
Hadoop logo

La plate-forme liée au Big Data sort en version 2.3.0. Au programme, deux améliorations significatives du Hadoop Distributed File System ainsi que des résolutions de bugs.

La version 2.3.0 de la plate-forme open source permettant l’écriture d’applications de stockage et de traitement de données distribuées en mode batch apporte en particulier deux améliorations au système de fichiers distribué Hadoop Distributed File System (HDFS), rapporte notamment le site d'Hortonworks, qui contribue au développement de la solution.

Ainsi, Hadoop 2.3.0 prend en charge les classes de stockage (tiering) hétérogènes au sein de HDFS, ce qui permet d'utiliser différents moyens de stockage (commodity disks, enterprise-grade disks, SSD, mémoire...) sur les mêmes clusters Hadoop.

En outre, il est désormais possible de se servir de la mémoire disponible dans un cluster Hadoop pour mettre en cache et administrer des jeux de données de manière centralisée dans la RAM au sein de l'espace d'adresses du Datanode correspondant. Ainsi, des applications s'exécutant sur YARN (comme MapReduce, Hive et Pig) peuvent demander une mise en cache puis une lecture des données directement depuis l'espace d'adresses du Datanode, ce qui permet d'éviter l'usage d'un disque. Cela aidera grandement à rendre Hive plus efficace dans le cadre des requêtes interactives.

Concernant MapReduce, MAPREDUCE-4421 simplifie l'installation de fichiers binaires sur les machines, permettant d'utiliser un tarball (format de fichier combinant de nombreux fichiers en un seul, souvent compressé) MapReduce via le YARN DistributedCache en le copiant sur le HDFS au lieu d'effectuer l'installation séparément sur chaque poste.
 
À noter, par ailleurs, les fonctionnalités à venir dans Hadoop 2.4.0, notamment la prise en charge des ACL dans HDFS, les fonctionnalités opérationnelles comme la prise en charge des mises à jour programmées dans HDFS et l'amélioration du FSImage devant permettre d'utiliser ProtoBufs. Le failover automatisé du ResourceManager de YARN est également prévu pour la 2.4.0. Enfin, cette version à venir devrait inclure une chronologie des applications génériques ainsi que des services d'historique visant à faciliter le développement et la gestion des nouveaux frameworks et services au sein de YARN.

Solutions

comments powered by Disqus
top