建议的方法来索引postgres中的日期字段?

时间:2016-10-29 15:52:43

标签: performance postgresql indexing

我有一些大约17M行的表,这些表都有一个日期列,我希望能够经常用于搜索。我正在考虑要么只是在列上抛出一个索引,看看事情如何进行,或者按日期将项目排序为一次性操作,然后将所有内容插入到新表中,以便主键在日期上升时上升。

由于这些都非常耗时,我认为首先要求输入是值得的。

最终目标是我将sql查询加载到pandas中进行某些分析,如果这与此相关的话。

2 个答案:

答案 0 :(得分:3)

当您要在表中搜索给定日期时,日期列上的索引是有意义的,例如:

select * from test
where the_date = '2016-01-01';
-- or

select * from test
where the_date between '2016-01-01' and '2016-01-31';
-- etc

在这些查询中,无论主键和日期列的排序顺序是否相同。因此,将数据重写到新表将是无用的。只需创建一个索引。

但是,如果您仅在ORDER BY中使用索引:

select * from test
order by the_date;

然后主键整数索引可能比日期列上的索引快得多(2-4倍)。

答案 1 :(得分:3)

Postgres支持某些扩展的聚簇索引,这是你建议删除并重新插入数据。

实际上,按照您想要的顺序删除和重新插入数据不会改变查询所需的时间。 Postgres不知道数据的顺序。

如果您知道该表的数据没有变化。然后根据您创建的索引对数据进行聚类。

此操作根据索引中的顺序重新排序表。在更新表之前,它非常有效。语法是:

CLUSTER tableName USING IndexName;

有关详细信息,请参阅the manual

我还建议你使用

explain <query>;

比较索引之前和之后的两个查询。或者在群集之前和之后。