在大量数据上有一个hadoop map-red作业。地图阶段需要很长时间才能完成(约2-3天)。它完成了。
但是在减少阶段,任务失败了~92%。是否有可能检索成功的地图任务执行的输出/计算,以便只需要重新运行减少阶段?
运行Hadoop 1.2.1,Java7,单节点linux系统。
答案 0 :(得分:0)
不,这是不可能的。如果映射器的逻辑是计算密集型(而不是IO重),您可以使用MultithreadedMapper进行多线程处理,或尝试将作业拆分为两个作业。然后第二个工作就是“缩进映射”较长时间运行的前一个作业的输出。