如何提高纱线上火花工作的容错能力?作业因过多指称而失败了吗?

时间:2019-02-15 08:11:50

标签: apache-spark yarn preemption

如何提高纱线的抗故障能力?在繁忙的群集中,由于失败太多,我的工作失败了。大部分失败是由于抢占Executor lost而引起的。

2 个答案:

答案 0 :(得分:1)

如果启用了抢占功能,则实际上应该使用外部随机播放服务来避免这些问题。真的没有什么可以做的。

https://issues.apache.org/jira/browse/SPARK-14209-JIRA在谈论。

答案 1 :(得分:0)

关闭纱线抢占权?还是进行较小的工作以避免完全重新计算?