要计算作业跟踪器将创建的地图制作器的数量,这很容易理解。它基本上是hdfs文件的大小除以拆分大小。因此,如果hdfs文件的大小为640MB且拆分为64MB,则作业跟踪器将创建10个映射器。但有时创建的映射器数量超过了您的预期。当作业完成时,我会查看屏幕上的打印件,以了解创建的映射器的数量。
我的问题如下:是否有可能理解为什么会创建更多的地图制作者,可能是通过查看不同的日志?
注意:我有一个map reduce作业,并且在不同时间执行相同的作业报告不同的映射器。虽然创建的额外映射器并不是很大。
答案 0 :(得分:1)
我在读取作业跟踪器生成的日志后想到的是,当已经分配的映射器需要很长时间才能完成时,会创建额外的映射器,这些只是落后者。
Hadoop在分配这样的任务时,它按如下方式执行: attempt_200707121733_0002_m_000005_1
这意味着作业跟踪器现在正尝试在第5个地图任务上为作业2分配第一个任务尝试。任务尝试从0开始。