df.write.partitionBy("par").format("orc").saveAsTable("mytable")
大家好,当我将火花数据框保存为分区的蜂巢表时,过程非常慢,有人知道为什么吗?是否有任何应该调整的参数?
答案 0 :(得分:1)
我想问题是数据帧分区没有与hive分区“对齐”。这将为每个hive分区创建许多小文件。这是因为数据数据帧的每个分区都包含一些hive分区的数据。
尝试首先在同一列上重新分区数据框:
df.repartition("par").write.partitionBy("par").format("orc").saveAsTable("mytable")