我的申请未被YARN接受。当我启动它们时,它们不会失败,但它们只会永远挂起(它们也不会得到那么常见的ACCEPTED
。)
我有一个包含25个节点的集群,每个节点有60 G内存和8个内核。
我在fair-scheduler.xml
文件中设置了两个队列,每个队列分配(最多)600 GB和100个核心。
根据我的计算,60G * 25节点应该足以支持两个队列。此外,8个核心* 25个节点应该足以支持在具有100个核心的队列中运行的一个作业。
当我在端口8088检查YARN ui时,它显示所有节点都有60 G可用内存和7个vcores可用。但它显示没有应用程序在运行,也没有接受任何应用程序。
当我在端口4040检查spark web UI时,我能够看到我的工作被拿起。但为什么YARN不会承认它们,以便我可以按照预期使用公平的调度程序?
我尝试重新启动hadoop-yarn-resourcemanager
。还有其他设置我必须改变吗?
如何让公平的调度员接受我的工作?
编辑很长一段时间后我收到消息Lost executor...Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues
。
我超出了哪些门槛?