应用错误收集

我们在YARN群集上运行的Spark作业遇到No space on device错误。

这有一些不好的结果。首先，Spark作业需要更长的时间或失败。其次，由于磁盘已满，因此节点被YARN NodeManager禁用，并从池中删除并标记为不正常。

是否可以配置允许作业在每个NodeManager上使用的最大磁盘空间？

我希望能够说些类似“我有1TB的磁盘，您最多可以使用900GB的作业”这样的说法，并且让YARN管理这些资源是一种永远不会填满磁盘的方式

或者，如何确保YARN不断从其本地磁盘中删除旧数据，以使其不被填充？我不在乎是否会导致工作失败。当您过度使用资源时，这是不可避免的。