我有一个带有列c1,c2和c3的数据框。我需要将其保存为实木复合地板格式。保存时,我需要使用c3进行分区。
df.write.format("parquet").partitionBy("c3").save("location")
在这里,我在c3列值的每个目录下都有很多小文件。 要解决该问题,请重新分区
df.repartition(df.col("c3")).write.format("parquet").partitionBy("c3").save("location")
使用上述代码,每个分区列值目录中将存在一个文件。问题是OOM异常。
如何解决此问题?我不想在每个分区下放这么多小文件。