我正在努力优化我们的parquets分区方式。
今天,我们唯一的分区是基于年/月/日列(按此顺序)。
所以目录结构可能如下所示:
year=2018
|--Month=04
|--day=12
|--day=13
|--Month=05
这是合理的,因为我们运行的许多查询都被限制在一定的时间范围内。
我们还注意到还有另一个低基数字段 - 称为“类型”,出现在许多查询中,可以很好地修剪数据。
我想将此字段引入分区方案,但不确定它是应该成为root还是child。换句话说,我需要在类型/年/月/日和年/月/日/类型之间做出决定
帮助我做出这个决定的指导原则是什么?它甚至重要吗?