标签: apache-spark
我正在使用spark的动态分配功能来运行我的火花作业。它分配了大约50-100个执行者。由于某种原因,很少有执行者丢失导致关闭工作。日志显示这是由于达到最大执行程序失败而发生的。默认设置为3。因此,当3个执行器丢失时,即使其他40-50个执行器正在运行,该作业也会被杀死。 我知道我可以更改最大执行程序失败限制,但这似乎是一种解决方法。还有其他我可以尝试的东西。欢迎提出所有建议。