了解Hadoop并行处理

时间:2018-05-13 18:41:37

标签: hadoop mapreduce hadoop2

我是Hadoop的新手,最近在Ubuntu的虚拟框内配置了Hadoop,这里名称节点和资源管理器配置了独立的机器,还有3个分区数据节点和一个客户端节点。

在阅读了更多文章之后,我理解了mapreduce作业并行运行在多个节点上,

根据我的理解,我编写了一个Mapreduce程序并访问系统的hostName作为map函数中的键,这是我想要了解并行性

我已将数据加载到Hdfs,200 MB数据,块大小为64 MB,确认3个数据节点有块

导出jar并使用yarn jar和hadoop jar从客户端运行后,我的期望是在reducer旁边获取三个datanode名称,但它显示客户端系统名称

请你解释一下这个执行(Hadoop jar)是如何工作的,它是否在所有三个节点中运行我的mapreduce jar,如果那么为什么它显示客户端主机名而不是三个datanode

0 个答案:

没有答案