Question

df.write.partitionBy("par").format("orc").saveAsTable("mytable")

大家好，当我将火花数据框保存为分区的蜂巢表时，过程非常慢，有人知道为什么吗？是否有任何应该调整的参数？

Answer 1

我想问题是数据帧分区没有与hive分区“对齐”。这将为每个hive分区创建许多小文件。这是因为数据数据帧的每个分区都包含一些hive分区的数据。

尝试首先在同一列上重新分区数据框：

df.repartition("par").write.partitionBy("par").format("orc")‌.saveAsTable("mytabl‌e")