Question

我正在研究Spark 1.6.1

我有一个分布式的数据框，肯定比我群集中的任何节点大。

如果将所有节点都放入节点会发生什么？

df.coalesce(1)

工作会失败吗？

谢谢

Answer 1

由于数据将无法容纳在内存中，因此肯定会失败。如果要返回单个文件作为输出，则可以稍后使用HDFS getMerge合并HDFS文件。

您可以使用实用程序将多个文件从下面提到的git项目合并为一个文件 https://github.com/gopal-tiwari/hdfs-file-merge