由于hdfs"非DFS使用而导致设备上没有剩余空间的Spark作业崩溃"

时间:2017-05-25 15:02:03

标签: hadoop apache-spark hdfs amazon-emr

我正在一个小型数据集(25 GB)上运行一个spark sql作业,我总是最终填满了磁盘并最终崩溃了我的执行程序。

hdfs dfsadmin -safemode leave

当这个追加时,我必须离开安全模式.. df

查看spark工作本身,显然是一个混乱或缓存数据帧的问题。但是,任何想法为什么du报告这种不规则的使用/可用尺寸?为什么Configured Capacity: 74587291648 (69.46 GB) DFS Used: 476200960 (454.14 MB) Non DFS Used: 67648394610 (63.00 GB) DFS Remaining: 6462696078 (6.02 GB) 不列出文件?

我知道它与非DFS使用相关"我可以在namenode概述中看到。但是为什么火花会消耗掉这么多"隐藏"空间到了什么地方让我的工作崩溃了?

{{1}}

0 个答案:

没有答案