我正在运行一项带有1000个任务的hadoop工作。我需要工作来尝试运行每个任务,但许多任务将无法完成,而是会抛出异常。我无法改变这种行为,但我仍然需要从未失败的任务中获得的数据。
如果遇到大量失败的任务,我怎样才能确保Hadoop完成所有1000个任务?
答案 0 :(得分:2)
在您的情况下,您可以设置允许失败的任务的最大百分比,而不会触发作业失败。使用
独立控制映射任务和减少任务mapred.max.map.failures.percent
mapred.max.reduce.failures.percent
性质。因此,如果你想要70%的任务结果,即使30%失败,你也可以使用上述属性。