我有一个列,用于标识我想要分区的ETL-Workflow的每次运行(让我们称之为RUN_ID)。但是,由于这将随着时间的推移创建大量分区,并且分区不能跨越分区列的多个值,我想知道是否有一个技术专栏仅用于分区(让我们称之为PARTITION_ID)对我有帮助,从那时起,我可以在不改变RUN_ID的情况下合并两个分区。
我现在的问题是,由于每个RUN_ID只能存在于一个分区中,因此在使用WHERE RUN_ID = xxx进行查询或在RUN_ID上加入但不提供PARTITION_ID时,对RUN_ID进行索引仍然可以提供不读取所有分区的好处。查询?
假设hive 2.1.1