以纱线模式运行的火花作业显示少数任务失败,原因如下:
ExecutorLostFailure(执行者36退出由其中一个正在运行的任务引起)原因:容器标记为失败:容器上的container_xxxxxxxxxx_yyyy_01_000054:ip-xxx-yy-zzz-zz。退出状态:-100。诊断:在* lost *节点上发布容器
知道为什么会这样吗?
答案 0 :(得分:0)
由框架杀死的容器,无论是由于应用程序释放还是由于丢失而导致的。由于节点故障等,有一个特殊的退出代码-100。 节点故障可能是因为没有足够的磁盘空间或执行程序内存。
答案 1 :(得分:0)
有两个主要原因。
答案 2 :(得分:0)
我了解您的集群不在AWS上,但作为MR集群的AWS经理,他们发布了常见问题解答
对于EMR:https://aws.amazon.com/premiumsupport/knowledge-center/container-released-lost-node-100-glue/
对于胶水作业:https://aws.amazon.com/premiumsupport/knowledge-center/emr-exit-status-100-lost-node/