标签: hive partitioning
我有一个包含三列的配置单元表。
origin zip, destination zip, miles
此表上的大多数查询将具有一个带有两个字段的where子句
origin zip, destination zip
并选择
miles
对表进行分区的最佳方法是什么?如何提高选择性能?该表有20亿行和orc表。
谢谢