可以使用索引来限制在Hive中读取哪些分区吗?

时间:2017-04-28 09:20:21

标签: hadoop hive hiveql

我有一个列,用于标识我想要分区的ETL-Workflow的每次运行(让我们称之为RUN_ID)。但是,由于这将随着时间的推移创建大量分区,并且分区不能跨越分区列的多个值,我想知道是否有一个技术专栏仅用于分区(让我们称之为PARTITION_ID)对我有帮助,从那时起,我可以在不改变RUN_ID的情况下合并两个分区。

我现在的问题是,由于每个RUN_ID只能存在于一个分区中,因此在使用WHERE RUN_ID = xxx进行查询或在RUN_ID上加入但不提供PARTITION_ID时,对RUN_ID进行索引仍然可以提供不读取所有分区的好处。查询?

假设hive 2.1.1

0 个答案:

没有答案