选择不同。减少等待时间的最合适技术

时间:2017-03-03 15:18:06

标签: postgresql indexing django-models partitioning

我在Postgres DB的表格中有很多行。

我每20分钟在此表中插入一次,每天清除旧条目,并且只有2个选项。

所以我想优化时间,等待我的选择。

首选是:

Select * from table where item=<item_id>

第二种是:

Select distinct(datetime) from table

因此,为了优化1个选择,我可以为item字段设置索引。据我所知,这种技术适用于smth equals smth的查询。

但我不知道如何优化我的2选择查询。我认为像分区这样的smth可以帮助我,但是有几种类型的分区,我有点困惑。

那么优化查询的最佳选择是什么?

另外,我使用的是python和Django模型。如果有一个好的图书馆可以完成所有肮脏的工作。那太好了。现在最合适的,我发现:http://architect.readthedocs.io/

EDIT1 感谢Evan Carrol。

尝试使用索引进行第二次查询。 命令:

explain analyze select distinct time_updated from wow_auction_gordunni

给出:

HashAggregate  (cost=335091.65..335092.51 rows=86 width=8) (actual time=4246.582..4246.607 rows=91 loops=1)
  Group Key: time_updated
  ->  Seq Scan on wow_auction_gordunni  (cost=0.00..313574.92 rows=8606692 width=8) (actual time=0.047..2257.979 rows=8616562 loops=1)
Planning time: 0.080 ms
Execution time: 4246.675 ms

然后创建索引和真空:

Create INDEX ON wow_auction_gordunni (time_updated);
VACUUM ANALYZE wow_auction_gordunni;
explain analyze select distinct time_updated from wow_auction_gordunni;

给出以下内容:

Unique  (cost=0.43..249907.42 rows=92 width=8) (actual time=0.057..3537.626 rows=92 loops=1)
  ->  Index Only Scan using wow_auction_gordunni_time_updated_idx on wow_auction_gordunni  (cost=0.43..228163.42 rows=8697599 width=8) (actual time=0.055..2488.408 rows=8696562 loops=1)
        Heap Fetches: 85796
Planning time: 0.726 ms
Execution time: 3537.800 ms

所以似乎索引有点帮助(postgres开始使用索引),但不是很显着。

2 个答案:

答案 0 :(得分:1)

只要有意义,它就会使用索引扫描。样本数据

CREATE TABLE foo
AS
  SELECT
    x%3 AS x,
    repeat( md5(x::text)::text, 200 ) AS t1
  FROM generate_series(1,1e6) AS t(x);

CREATE INDEX ON foo (x);
VACUUM ANALYZE foo;

查询,

EXPLAIN ANALYZE SELECT DISTINCT x FROM Foo;
                                                                 QUERY PLAN                                                                  
---------------------------------------------------------------------------------------------------------------------------------------------
 Unique  (cost=0.42..28480.42 rows=200 width=32) (actual time=0.034..257.734 rows=3 loops=1)
   ->  Index Only Scan using foo_x_idx on foo  (cost=0.42..25980.42 rows=1000000 width=32) (actual time=0.031..122.668 rows=1000000 loops=1)
         Heap Fetches: 0
 Planning time: 0.090 ms
 Execution time: 257.764 ms
(5 rows)

因此,要优化第二个选择查询,请在datetime上创建索引。查看EXPLAIN ANALYZE。看看它是否被用作索引。如果这没有帮助或索引未被使用,您可以尝试set enable_seqscan = off,然后重新运行查询。现在你知道节省了多少钱,如果有的话。您可以在此处粘贴这两个计划,我们可以查看它。

答案 1 :(得分:0)

无法优化第二个查询,它必须扫描整个表格以查找datetime的所有可能值。

您可以做的最好的事情是通过使用TRUNCATE而不是DELETE清除表来查看表没有膨胀,并将足够的RAM放入计算机以便整个表位于RAM。