应用错误收集

我的申请未被YARN接受。当我启动它们时，它们不会失败，但它们只会永远挂起（它们也不会得到那么常见的ACCEPTED。）

我有一个包含25个节点的集群，每个节点有60 G内存和8个内核。

我在fair-scheduler.xml文件中设置了两个队列，每个队列分配（最多）600 GB和100个核心。

根据我的计算，60G * 25节点应该足以支持两个队列。此外，8个核心* 25个节点应该足以支持在具有100个核心的队列中运行的一个作业。

当我在端口8088检查YARN ui时，它显示所有节点都有60 G可用内存和7个vcores可用。但它显示没有应用程序在运行，也没有接受任何应用程序。

当我在端口4040检查spark web UI时，我能够看到我的工作被拿起。但为什么YARN不会承认它们，以便我可以按照预期使用公平的调度程序？

我尝试重新启动hadoop-yarn-resourcemanager。还有其他设置我必须改变吗？

如何让公平的调度员接受我的工作？

编辑很长一段时间后我收到消息Lost executor...Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues。

我超出了哪些门槛？