优化从两个分区请求数据的配置单元查询

时间:2018-11-14 04:00:38

标签: hive amazon-athena presto

当前,我正在将Hive与s3存储一起使用。

我现在总共有1000000个分区。我面临的问题是:

如果我这样做:

查询执行时间少于1秒。

select sum(metric) from foo where pt_partition_number = 'bar1'

select sum(metric) from foo where pt_partition_number = 'bar2'

但是,如果我这样做

select sum(metric) from foo where pt_partition_number IN ('bar1','bar2')

查询大约需要30秒。我想蜂巢正在做目录扫描,以防第二次查询。

有没有一种优化查询的方法: 我的请求模式始终访问两个分区数据。

0 个答案:

没有答案