我是Hadoop的新手,最近在Ubuntu的虚拟框内配置了Hadoop,这里名称节点和资源管理器配置了独立的机器,还有3个分区数据节点和一个客户端节点。
在阅读了更多文章之后,我理解了mapreduce作业并行运行在多个节点上,
根据我的理解,我编写了一个Mapreduce程序并访问系统的hostName作为map函数中的键,这是我想要了解并行性
我已将数据加载到Hdfs,200 MB数据,块大小为64 MB,确认3个数据节点有块
导出jar并使用yarn jar和hadoop jar从客户端运行后,我的期望是在reducer旁边获取三个datanode名称,但它显示客户端系统名称
请你解释一下这个执行(Hadoop jar)是如何工作的,它是否在所有三个节点中运行我的mapreduce jar,如果那么为什么它显示客户端主机名而不是三个datanode