我不确定这是否已针对较新版本的Hadoop修复,但我目前已锁定运行Hadoop 0.20(遗留代码)。
问题在于:当我启动Hadoop作业时,会有"作业设置"需要先运行的任务。在我看来,Hadoop随机选择此任务作为地图任务或减少任务。
我们有更多容量来配置地图任务而不是减少任务,因此每当我不幸并且减少启动任务时,我的工作甚至需要很长时间才能开始运行。任何想法如何克服这个?
答案 0 :(得分:0)
Hadoop作业首先完成所有映射器任务。完成所有映射器任务后,它将通过网络并进行混洗和排序,然后只有在您的reducer任务开始处理之后。所以我想这个延迟可能还有其他一些。