我试图通过在单个列上存储数据来优化配置单元SQL。我用以下语句创建了表
CREATE TABLE `source_bckt`(
`uk` string,
`data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS
然后在执行"set hive.enforce.bucketing = true;"
当我运行以下选项时"select * from source_bckt where uk='1179724';"
即使数据应该在单个文件中,可以通过以下等式HASH('1179724')%10
来识别,但mapreduce会产生扫描整个文件集。
有什么想法吗?
答案 0 :(得分:2)
目前尚不支持此优化 当前JIRA票证状态为 PATCH AVAILABLE