当前,我正在将Hive与s3存储一起使用。
我现在总共有1000000个分区。我面临的问题是:
如果我这样做:
查询执行时间少于1秒。
select sum(metric) from foo where pt_partition_number = 'bar1'
select sum(metric) from foo where pt_partition_number = 'bar2'
但是,如果我这样做
select sum(metric) from foo where pt_partition_number IN ('bar1','bar2')
查询大约需要30秒。我想蜂巢正在做目录扫描,以防第二次查询。
有没有一种优化查询的方法: 我的请求模式始终访问两个分区数据。