应用错误收集

火花实木复合地板太多小文件

时间：2018-05-14 13:06:20

标签： apache-spark apache-spark-sql

当从蜂巢表中读取并执行投影并将其写回HDFS时，显然存在的数据少于原始表中的数据。

我如何确保每个分区的文件数（日期）不是很大/即。包含大量小文件？

df.coalesce(200).write.partitionBy(date).parquet('foo)

仍会输出许多小文件。显然，我不想减少火花中的并列性，而是稍后合并文件。

0 个答案:

没有答案