我有一些大约17M行的表,这些表都有一个日期列,我希望能够经常用于搜索。我正在考虑要么只是在列上抛出一个索引,看看事情如何进行,或者按日期将项目排序为一次性操作,然后将所有内容插入到新表中,以便主键在日期上升时上升。
由于这些都非常耗时,我认为首先要求输入是值得的。
最终目标是我将sql查询加载到pandas中进行某些分析,如果这与此相关的话。
答案 0 :(得分:3)
当您要在表中搜索给定日期时,日期列上的索引是有意义的,例如:
select * from test
where the_date = '2016-01-01';
-- or
select * from test
where the_date between '2016-01-01' and '2016-01-31';
-- etc
在这些查询中,无论主键和日期列的排序顺序是否相同。因此,将数据重写到新表将是无用的。只需创建一个索引。
但是,如果您仅在ORDER BY
中使用索引:
select * from test
order by the_date;
然后主键整数索引可能比日期列上的索引快得多(2-4倍)。
答案 1 :(得分:3)
Postgres支持某些扩展的聚簇索引,这是你建议删除并重新插入数据。
实际上,按照您想要的顺序删除和重新插入数据不会改变查询所需的时间。 Postgres不知道数据的顺序。
如果您知道该表的数据没有变化。然后根据您创建的索引对数据进行聚类。
此操作根据索引中的顺序重新排序表。在更新表之前,它非常有效。语法是:
CLUSTER tableName USING IndexName;
有关详细信息,请参阅the manual。
我还建议你使用
explain <query>;
比较索引之前和之后的两个查询。或者在群集之前和之后。