另存为实木复合地板文件时,数据帧重新分区导致OOM错误

时间:2018-10-31 12:48:40

标签: apache-spark dataframe

我有一个带有列c1,c2和c3的数据框。我需要将其保存为实木复合地板格式。保存时,我需要使用c3进行分区。

df.write.format("parquet").partitionBy("c3").save("location")

在这里,我在c3列值的每个目录下都有很多小文件。 要解决该问题,请重新分区

df.repartition(df.col("c3")).write.format("parquet").partitionBy("c3").save("location")

使用上述代码,每个分区列值目录中将存在一个文件。问题是OOM异常。

如何解决此问题?我不想在每个分区下放这么多小文件。

0 个答案:

没有答案