我每天尝试使用spark-shell(Scala)将数据附加到HDFS位置。目前,一天的文件夹下有200个分区,而我担心的是名称配额。
以下是我使用的代码:
df.filter("date = '2018-07-12'").write.mode(SaveMode.Append).parquet("hdfs:/path.../test.parquet/date=2018-07-12")
集群上只有2个核心,我尝试使用Coalesce(16)控制分区大小,但是它始终会出现内存不足错误。
我应该如何控制分区大小?也许不增加核心数?