火花任务失败并显示错误,显示退出状态:-100

时间:2017-06-16 08:04:18

标签: apache-spark yarn

以纱线模式运行的火花作业显示少数任务失败,原因如下:

  

ExecutorLostFailure(执行者36退出由其中一个正在运行的任务引起)原因:容器标记为失败:容器上的container_xxxxxxxxxx_yyyy_01_000054:ip-xxx-yy-zzz-zz。退出状态:-100。诊断:在* lost *节点上发布容器

知道为什么会这样吗?

3 个答案:

答案 0 :(得分:0)

由框架杀死的容器,无论是由于应用程序释放还是由于丢失而导致的。由于节点故障等,有一个特殊的退出代码-100。 节点故障可能是因为没有足够的磁盘空间或执行程序内存。

答案 1 :(得分:0)

有两个主要原因。

  1. 可能是因为您的内存不足纱线容器所需的开销不足,解决方案是增加spark.executor.memoryOverhead
  2. 可能是因为从属节点磁盘缺少任何写入空间。检查您的yarn usercache目录(对于EMR,位于/ mnt / yarn / usercache /),
    或输入df -h来检查磁盘空间。

答案 2 :(得分:0)

我了解您的集群不在AWS上,但作为MR集群的AWS经理,他们发布了常见问题解答

对于EMR:https://aws.amazon.com/premiumsupport/knowledge-center/container-released-lost-node-100-glue/

对于胶水作业:https://aws.amazon.com/premiumsupport/knowledge-center/emr-exit-status-100-lost-node/