将数据帧作为实木复合地板文件写入HDFS,如何控制分区大小?

时间:2018-07-12 15:37:59

标签: scala apache-spark hdfs parquet partition

我每天尝试使用spark-shell(Scala)将数据附加到HDFS位置。目前,一天的文件夹下有200个分区,而我担心的是名称配额。
以下是我使用的代码:

df.filter("date = '2018-07-12'").write.mode(SaveMode.Append).parquet("hdfs:/path.../test.parquet/date=2018-07-12")   
  

集群上只有2个核心,我尝试使用Coalesce(16)控制分区大小,但是它始终会出现内存不足错误。
  我应该如何控制分区大小?也许不增加核心数?

0 个答案:

没有答案