Hadoop中MapReduce作业的物理进程树(通过集群节点)

时间:2017-04-05 04:38:09

标签: hadoop mapreduce hdfs bigdata

我阅读了很多参考文献,书中的章节&文章,但我仍然试图把所有东西粘在一起:
我非常了解MapReduce逻辑链,但我特别想知道随着时间的推移在哪个物理节点上启动了哪些特定的进程。

我猜mappers是在网站上执行的#34;"在datanode机器上,但是需要通过多个数据节点访问数据的其他流程,特别是减速器呢?

另外,如果我做得好,地图和减少编写的程序将在执行命令的主节点上启动,并导致在整个群集中的新JVM上启动新线程,是吗?

1 个答案:

答案 0 :(得分:0)

我建议您访问http://bytepadding.com/map-reduce/

给你一个概述。

  1. MapReduce客户端可以在本地或在dataNode(oozie启动器)上启动。
  2. 基于inputFormat,MapreduceDriver(Application Master)从namenode获取文件位置
  3. 基于文件拆分策略,启动映射器,并且该进程尝试尽可能接近单个文件块生成映射器。
  4. 在dataNodes上生成映射器。
  5. 在Mappers完成后,在DataNode上启动reducer,并在这些特定的计算机上复制来自映射器的数据。