我看到大约3018个任务因这项工作而失败,因为大约有4位执行者死亡。
执行器摘要(如下所示,在Spark UI中)具有完全不同的统计信息。在3018年中,大约2994个已正确完成。我的问题是,
答案 0 :(得分:0)
在监视作业并手动验证成功任务的尝试计数事件后,已实现
会再次重试吗? -是的,甚至重试成功的任务。
是否有配置可覆盖/限制此设置? -找不到任何配置来替代此行为。
如果执行者(kubernetes吊舱)死亡(如OOM或超时),则即使成功完成所有任务也将重新执行。主要原因之一是,执行者本身的随机写入丢失了执行者本身!