Spark网页(与纱线一起使用)具有以下阶段:
Stage 0
重试1,重试2使我感到惊讶的是什么能导致这种事情?
我试图自己复制它,并杀死了我的一台集群计算机上的所有执行器进程(CoarseGrainedExecutorBackend
),但是我得到的只是一些失败的任务,描述为Resubmitted (resubmitted due to lost executor)
。
整个阶段重试的原因是什么?我很好奇的是,每个阶段尝试读取的记录数是不同的:
和
请注意3011506
中的Attempt 1
和195907736
中的Attempt 0
。阶段重试是否会导致Spark重读两次记录?
答案 0 :(得分:2)
阶段失败可能是由于Spark中的FetchFailure
获取失败:减少任务无法执行随机播放读取,即无法在磁盘写入的随机映射任务上找到随机文件。
如果stageFailureCount