spark数据帧保存为分区表非常慢

时间:2017-09-15 05:17:42

标签: apache-spark

df.write.partitionBy("par").format("orc").saveAsTable("mytable")
大家好,当我将火花数据框保存为分区的蜂巢表时,过程非常慢,有人知道为什么吗?是否有任何应该调整的参数?

1 个答案:

答案 0 :(得分:1)

我想问题是数据帧分区没有与hive分区“对齐”。这将为每个hive分区创建许多小文件。这是因为数据数据帧的每个分区都包含一些hive分区的数据。

尝试首先在同一列上重新分区数据框:

df.repartition("par").write.partitionBy("par").format("orc")‌​.saveAsTable("mytabl‌​e")