标签: apache-spark apache-spark-sql
当从蜂巢表中读取并执行投影并将其写回HDFS时,显然存在的数据少于原始表中的数据。
我如何确保每个分区的文件数(日期)不是很大/即。包含大量小文件?
df.coalesce(200).write.partitionBy(date).parquet('foo)
仍会输出许多小文件。 显然,我不想减少火花中的并列性,而是稍后合并文件。