我有2张桌子
一个是被诅咒而另一个不是 - 除了他们是相同的
两者都存储为orc和分区
查询给定分区上的分区表比在同一分区上查询其双胞胎要慢得多
是否预期?
如果不是可能的原因是什么?
如果是,那么我是否应该总结我持有一个表格的唯一动机是连接和采样,并且在这种情况下保存表的两个副本 - 一个是分段而另一个不是(听起来很浪费)?
答案 0 :(得分:0)
目前,HIVE不支持where子句中列的Bucketing相关查询优化。然而,在连接操作期间,Bucketing将是有益的。在上面提到的用例中,Partition和ORC以及按排序顺序存储的DATA应该会给你最好的响应。