标签: apache-spark yarn preemption
如何提高纱线的抗故障能力?在繁忙的群集中,由于失败太多,我的工作失败了。大部分失败是由于抢占Executor lost而引起的。
Executor lost
答案 0 :(得分:1)
如果启用了抢占功能,则实际上应该使用外部随机播放服务来避免这些问题。真的没有什么可以做的。
https://issues.apache.org/jira/browse/SPARK-14209-JIRA在谈论。
答案 1 :(得分:0)
关闭纱线抢占权?还是进行较小的工作以避免完全重新计算?