我正在一个小型数据集(25 GB)上运行一个spark sql作业,我总是最终填满了磁盘并最终崩溃了我的执行程序。
hdfs dfsadmin -safemode leave
当这个追加时,我必须离开安全模式.. df
查看spark工作本身,显然是一个混乱或缓存数据帧的问题。但是,任何想法为什么du
报告这种不规则的使用/可用尺寸?为什么Configured Capacity: 74587291648 (69.46 GB)
DFS Used: 476200960 (454.14 MB)
Non DFS Used: 67648394610 (63.00 GB)
DFS Remaining: 6462696078 (6.02 GB)
不列出文件?
我知道它与非DFS使用相关"我可以在namenode概述中看到。但是为什么火花会消耗掉这么多"隐藏"空间到了什么地方让我的工作崩溃了?
{{1}}