Question

我试图通过在单个列上存储数据来优化配置单元SQL。我用以下语句创建了表

CREATE TABLE `source_bckt`(
  `uk` string, 
  `data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS

然后在执行"set hive.enforce.bucketing = true;"

后插入数据

当我运行以下选项时"select * from source_bckt where uk='1179724';" 即使数据应该在单个文件中，可以通过以下等式HASH('1179724')%10来识别，但mapreduce会产生扫描整个文件集。

有什么想法吗？

Answer 1

目前尚不支持此优化当前JIRA票证状态为 PATCH AVAILABLE