我正在运行一个火花计算应用程序,我经常遇到任务查杀的问题。这是它在我的火花控制台中的样子:
可以看出,有些作业有描述(_num_ killed: another attempt succeeded
)。这不仅仅是失败,这是不同的。有人可以解释它是什么吗?
答案 0 :(得分:2)
如果任务似乎需要花费非常长的时间才能完成,那么Spark可以启动该任务的额外重复副本,以防它们能够尽快完成。这被称为推测或推测执行。如果一个副本成功,其他副本就可以被杀死。
请在此处查看以spark.speculation
开头的参数:https://spark.apache.org/docs/latest/configuration.html
答案 1 :(得分:1)
被杀 - 这意味着该执行人被一名停止并要求杀死遗嘱执行人的工人杀死。这种情况可能是由于许多原因,例如某些用户驱动的操作,或者可能是您的执行程序已完成处理但由于某种原因它不存在但工作者正在退出,因此需要杀死执行程序。