hadoop - 在一个分区表上的Hive查询很慢

在一个分区表上的Hive查询很慢

时间：2016-10-05 14:44:00

标签： hadoop hive hiveql orc

我有2张桌子一个是被诅咒而另一个不是 - 除了他们是相同的两者都存储为orc和分区查询给定分区上的分区表比在同一分区上查询其双胞胎要慢得多是否预期？
如果不是可能的原因是什么？
如果是，那么我是否应该总结我持有一个表格的唯一动机是连接和采样，并且在这种情况下保存表的两个副本 - 一个是分段而另一个不是（听起来很浪费）？

1 个答案:

答案 0 :(得分：0)

目前，HIVE不支持where子句中列的Bucketing相关查询优化。然而，在连接操作期间，Bucketing将是有益的。在上面提到的用例中，Partition和ORC以及按排序顺序存储的DATA应该会给你最好的响应。

蜂巢：分级表健全检查
以增量方式加载带有平面文件的Hive bucketed表
可以多次将数据插入到分块的配置单元表中
在一个分区表上的Hive查询很慢
插入bucketed表会产生空表
在分块列
Hive扫描分层表的整个数据
Hive Partitioned / bucketed table的实际结构是什么？
更新/删除不使用AcidOutputFormat或未使用AcidOutputFormat的表
想要准备动态查询以在存储单元列表中使用TABLESAMPLE搜索特定存储桶数据

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？