应用错误收集

将数据帧作为实木复合地板文件写入HDFS，如何控制分区大小？

时间：2018-07-12 15:37:59

标签： scala apache-spark hdfs parquet partition

我每天尝试使用spark-shell（Scala）将数据附加到HDFS位置。目前，一天的文件夹下有200个分区，而我担心的是名称配额。
以下是我使用的代码：

df.filter("date = '2018-07-12'").write.mode(SaveMode.Append).parquet("hdfs:/path.../test.parquet/date=2018-07-12")

集群上只有2个核心，我尝试使用Coalesce（16）控制分区大小，但是它始终会出现内存不足错误。
我应该如何控制分区大小？也许不增加核心数？

0 个答案:

没有答案