JobTRacker是否知道在实际数据传输之前的混洗阶段期间有多少数据被转移到每个reduce任务

时间:2012-07-03 21:36:47

标签: hadoop reducers

在Hadoop中,JobTracker可以知道每个ReduceTask在实际数据移动之前需要检索多少数据(在随机播放阶段)?我正在尝试收集有关洗牌阶段数据移动的统计数据。

1 个答案:

答案 0 :(得分:0)

简而言之:它能否知道 - 也许,它是否使用了这些信息 - 没有。

根据mapred.reduce.slowstart.completed.maps配置属性的配置,可以在大多数映射任务完成之前启动reduce任务,因此调度程序实现在调度reduce任务时不会考虑此信息。 / p>

也许实施自己的调度程序,你可以从一些计数器统计数据中检索这些信息,但你必须深入挖掘源代码,我不确定你是否可以访问计数器。

作为替代方案,您是否可以不使用map / reduce计数器和/或日志来执行任务尝试(也可能是任务跟踪器日志)?