在一个分区表上的Hive查询很慢

时间:2016-10-05 14:44:00

标签: hadoop hive hiveql orc

我有2张桌子 一个是被诅咒而另一个不是 - 除了他们是相同的 两者都存储为orc和分区 查询给定分区上的分区表比在同一分区上查询其双胞胎要慢得多 是否预期?
如果不是可能的原因是什么?
如果是,那么我是否应该总结我持有一个表格的唯一动机是连接和采样,并且在这种情况下保存表的两个副本 - 一个是分段而另一个不是(听起来很浪费)?

1 个答案:

答案 0 :(得分:0)

目前,HIVE不支持where子句中列的Bucketing相关查询优化。然而,在连接操作期间,Bucketing将是有益的。在上面提到的用例中,Partition和ORC以及按排序顺序存储的DATA应该会给你最好的响应。