我正在研究Spark 1.6.1
我有一个分布式的数据框,肯定比我群集中的任何节点大。
如果将所有节点都放入节点会发生什么?
df.coalesce(1)
工作会失败吗?
谢谢
答案 0 :(得分:1)
由于数据将无法容纳在内存中,因此肯定会失败。 如果要返回单个文件作为输出,则可以稍后使用HDFS getMerge合并HDFS文件。
您可以使用实用程序将多个文件从下面提到的git项目合并为一个文件 https://github.com/gopal-tiwari/hdfs-file-merge