Hive扫描分层表的整个数据

时间:2017-04-25 10:40:55

标签: hadoop hive hiveql

我试图通过在单个列上存储数据来优化配置单元SQL。我用以下语句创建了表

CREATE TABLE `source_bckt`(
  `uk` string, 
  `data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS

然后在执行"set hive.enforce.bucketing = true;"

后插入数据

当我运行以下选项时"select * from source_bckt where uk='1179724';" 即使数据应该在单个文件中,可以通过以下等式HASH('1179724')%10来识别,但mapreduce会产生扫描整个文件集。

有什么想法吗?

1 个答案:

答案 0 :(得分:2)

目前尚不支持此优化 当前JIRA票证状态为 PATCH AVAILABLE

https://issues.apache.org/jira/browse/HIVE-5831