我们在YARN群集上运行的Spark作业遇到No space on device
错误。
这有一些不好的结果。首先,Spark作业需要更长的时间或失败。其次,由于磁盘已满,因此节点被YARN NodeManager禁用,并从池中删除并标记为不正常。
是否可以配置允许作业在每个NodeManager上使用的最大磁盘空间?
我希望能够说些类似“我有1TB的磁盘,您最多可以使用900GB的作业”这样的说法,并且让YARN管理这些资源是一种永远不会填满磁盘的方式
或者,如何确保YARN不断从其本地磁盘中删除旧数据,以使其不被填充?我不在乎是否会导致工作失败。当您过度使用资源时,这是不可避免的。