当合并时,spark sql数据大于节点内存(1)

时间:2019-04-24 13:44:02

标签: apache-spark apache-spark-sql coalesce

我正在研究Spark 1.6.1

我有一个分布式的数据框,肯定比我群集中的任何节点大。

如果将所有节点都放入节点会发生什么?

df.coalesce(1)

工作会失败吗?

谢谢

1 个答案:

答案 0 :(得分:1)

由于数据将无法容纳在内存中,因此肯定会失败。 如果要返回单个文件作为输出,则可以稍后使用HDFS getMerge合并HDFS文件。

您可以使用实用程序将多个文件从下面提到的git项目合并为一个文件 https://github.com/gopal-tiwari/hdfs-file-merge