使用黑斑羚和镶木地板进行分区修剪

时间:2015-10-21 14:22:52

标签: partitioning database-partitioning impala parquet

我们有一个事实表,我们希望按月划分。 (这是因为我们的数据量很大,并希望按照镶木地板的最佳实践来达到至少256mb的分区文件大小)。我想如果数据增加,我们可能想每周去一次。

该表始终会在特定日期和仅一天内查询。 (这是一个快照)

因此;我尝试了一个简单的测试。一个基本表,带有整数日期键,用整数日期 - 月份键分区。

我想象如果我在01/01/2011查询,那么它将使用01-2011分区。不幸的是它没有。解释计划显示它扫描两个分区。

我也计算了统计数据 - 认为统计数据会知道日期列的最小值和最大值,因此知道不会命中其中一个分区,但这并没有改变任何内容。

这是预期的吗?也许我的例子太简单了。解释计划是否具有误导性?我可以想象很多用例,你可以用一个日期字段过滤,但按年和月分区,这应该如何工作?

0 个答案:

没有答案