火花实木复合地板太多小文件

时间:2018-05-14 13:06:20

标签: apache-spark apache-spark-sql

当从蜂巢表中读取并执行投影并将其写回HDFS时,显然存在的数据少于原始表中的数据。

我如何确保每个分区的文件数(日期)不是很大/即。包含大量小文件?

df.coalesce(200).write.partitionBy(date).parquet('foo)

仍会输出许多小文件。 显然,我不想减少火花中的并列性,而是稍后合并文件。

0 个答案:

没有答案