Spark使用的分区层次结构中的最佳列顺序有哪些注意事项?

时间:2018-06-05 11:22:09

标签: apache-spark pyspark partitioning parquet

我正在努力优化我们的parquets分区方式。

今天,我们唯一的分区是基于年/月/日列(按此顺序)。

所以目录结构可能如下所示:

year=2018
  |--Month=04
     |--day=12
     |--day=13
  |--Month=05

这是合理的,因为我们运行的许多查询都被限制在一定的时间范围内。

我们还注意到还有另一个低基数字段 - 称为“类型”,出现在许多查询中,可以很好地修剪数据。

我想将此字段引入分区方案,但不确定它是应该成为root还是child。换句话说,我需要在类型/年/月/日年/月/日/类型之间做出决定

帮助我做出这个决定的指导原则是什么?它甚至重要吗?

0 个答案:

没有答案