在单个任务失败后,有没有办法告诉火花继续工作?
甚至更好: 只有当某个百分比的任务失败时,我们才能将作业配置为失败吗?
我的情况是这样的: 我正在使用pyspark进行一些并行计算。 我有一份由数千个任务组成的工作(它们或多或少彼此独立 - 我可以让一些人失败)。 1个任务失败(抛出异常),并且在几次重试此任务后,整个作业都将中止。
有没有办法改变这种(奇怪的)行为?
答案 0 :(得分:2)
不,火花中没有这样的功能。 有一张开放的jira票(SPARK-10781),但我没有看到任何动作。
您可以使用config mapreduce.map.failures.maxpercent and mapreduce.max.reduce.failures.percent