我试图使用YARN运行长时间运行的Spark Job。执行几个小时后,我在下面看到异常:
Caused by: java.io.IOException: Failed to create local dir in /tmp
Permission issue should not be there as Nodemanager and application is running as root and /tmp dir should be writable.
/tmp Dir
在所有节点管理器上都有足够的空间。
更新1:
阅读完完整的日志后,我发现与某些执行程序(读取节点)的连接丢失了,然后开始删除临时数据,并且开始失败。
DiskBlockObjectWriter:将部分写入恢复到文件/ tmp / hadoop-root / nm-local-dir / usercache / root / appcache / application_1568187536265_0302 / blockmgr-b9c691dd-8f39-4962-8799-014a553505fe / 3d / temp_shuffle_5807636d- 917a-4f7a-b8bc-c3984b642243 java.io.FileNotFoundException:/ tmp / hadoop-root / nm-local-dir / usercache / root / appcache / application_1568187536265_0302 / blockmgr-b9c691dd-8f39-4962-8799-014a553505fe / 3d / temp_shuffle_5807636d-917a-4f7a-b8bc-c3984b642243 (无此文件或目录) 。
19/09/12 12:02:23错误执行程序:阶段10.0中的任务123.1中的异常(TID 5712) java.io.IOException:无法在/ tmp / hadoop-root / nm-local-dir / usercache / root / appcache / application_1568187536265_0302 / blockmgr-87e8c520-408b-4582-a370-5afcb06ced8f / 2f中创建本地目录。