我在CDH 5.5.0的Spark 1.5.0上运行了一个spark spark应用程序。在日志中,我看到执行程序的最大数量失败。我无法找到根本原因。
我们每隔一天间歇性地收到此问题。最终应用状态:FAILED,exitCode:11,(原因:达到最大执行程序失败次数)
答案 0 :(得分:0)
这是一个错误,您可以跟踪以下故障单中的更改:
编辑:关于此消息“最大执行程序数失败” - Spark有参数spark.yarn.max.executor.failures
。默认情况下,执行程序的数量为2x,最小为3.如果失败次数超过此参数中的设置,则应用程序将被终止。
您可以更改此参数的值。但是我担心你为什么会有这么多执行者失败 - 也许你的内存太少了?或代码中的错误?没有代码和/或上下文信息,我们无法帮助调查潜在的错误