我在YARN上运行pyspark 1.6.1
,我一直在
Container marked as failed: container_1467098127754_0001_01_000024 on host: ip-23-4-2-123.ec2.internal. Exit status: -100. Diagnostics: Container released on a *lost* node
据我了解,这意味着节点空间不足。当然,当我在该节点上运行df -h
时,我发现它大约有80%已满。
所以,我查看我的yarn-site.xml
文件并查找yarn.nodemanager.local-dirs
和yarn.nodemanager.log-dirs
,然后我会进入每个节点并删除这些目录的内容。然后我看到df -h
非常低,只有14%这是好的。我重新运行该作业,然后丢失的节点发生同样的错误。
这些如何快速填满?我能做些什么呢?它的分区数量是多少?我正在使用的日志记录级别 - 它可以是什么?
感谢名单。