Hadoop版本1与版本2性能

时间:2014-01-21 16:14:17

标签: performance hadoop bigdata

我打算从Hadoop版本1更新到Hadoop版本2.任何人都可以告诉我(如果你已经尝试过hadoop版本2),版本2中的MR / Hive / Pig作业是否有任何性能提升?

1 个答案:

答案 0 :(得分:1)

以下是apache的说明。这些是改进的亮点。

以下简要概述了HDFS和MapReduce的改进。

HDFS联盟 为了横向扩展名称服务,联合使用多个独立的Namenodes / Namespaces。 Namenodes是联合的,即Namenodes是独立的,不需要相互协调。数据节点用作所有Namenode的块的公共存储。每个datanode都注册到集群中的所有Namenode。 Datanodes定期发送心跳并阻止报告并处理来自Namenodes的命令。

HDFS联合文档中提供了更多详细信息。

MapReduce NextGen又名YARN又名MRv2 hadoop-0.23中引入的新架构将JobTracker的两个主要功能:资源管理和作业生命周期管理划分为单独的组件。

新的ResourceManager管理计算资源到应用程序的全局分配,每个应用程序ApplicationMaster管理应用程序,调度和协调。

应用程序可以是传统MapReduce作业中的单个作业,也可以是此类作业的DAG。

管理该机器上的用户进程的ResourceManager和每台机器NodeManager守护程序构成计算结构。

每个应用程序ApplicationMaster实际上是一个特定于框架的库,其任务是协调来自ResourceManager的资源,并与NodeManager一起执行和监视任务。