我在Postgres DB的表格中有很多行。
我每20分钟在此表中插入一次,每天清除旧条目,并且只有2个选项。
所以我想优化时间,等待我的选择。
首选是:
Select * from table where item=<item_id>
第二种是:
Select distinct(datetime) from table
因此,为了优化1个选择,我可以为item
字段设置索引。据我所知,这种技术适用于smth equals
smth的查询。
但我不知道如何优化我的2选择查询。我认为像分区这样的smth可以帮助我,但是有几种类型的分区,我有点困惑。
那么优化查询的最佳选择是什么?
另外,我使用的是python和Django模型。如果有一个好的图书馆可以完成所有肮脏的工作。那太好了。现在最合适的,我发现:http://architect.readthedocs.io/
EDIT1 感谢Evan Carrol。
尝试使用索引进行第二次查询。 命令:
explain analyze select distinct time_updated from wow_auction_gordunni
给出:
HashAggregate (cost=335091.65..335092.51 rows=86 width=8) (actual time=4246.582..4246.607 rows=91 loops=1)
Group Key: time_updated
-> Seq Scan on wow_auction_gordunni (cost=0.00..313574.92 rows=8606692 width=8) (actual time=0.047..2257.979 rows=8616562 loops=1)
Planning time: 0.080 ms
Execution time: 4246.675 ms
然后创建索引和真空:
Create INDEX ON wow_auction_gordunni (time_updated);
VACUUM ANALYZE wow_auction_gordunni;
explain analyze select distinct time_updated from wow_auction_gordunni;
给出以下内容:
Unique (cost=0.43..249907.42 rows=92 width=8) (actual time=0.057..3537.626 rows=92 loops=1)
-> Index Only Scan using wow_auction_gordunni_time_updated_idx on wow_auction_gordunni (cost=0.43..228163.42 rows=8697599 width=8) (actual time=0.055..2488.408 rows=8696562 loops=1)
Heap Fetches: 85796
Planning time: 0.726 ms
Execution time: 3537.800 ms
所以似乎索引有点帮助(postgres开始使用索引),但不是很显着。
答案 0 :(得分:1)
只要有意义,它就会使用索引扫描。样本数据
CREATE TABLE foo
AS
SELECT
x%3 AS x,
repeat( md5(x::text)::text, 200 ) AS t1
FROM generate_series(1,1e6) AS t(x);
CREATE INDEX ON foo (x);
VACUUM ANALYZE foo;
查询,
EXPLAIN ANALYZE SELECT DISTINCT x FROM Foo;
QUERY PLAN
---------------------------------------------------------------------------------------------------------------------------------------------
Unique (cost=0.42..28480.42 rows=200 width=32) (actual time=0.034..257.734 rows=3 loops=1)
-> Index Only Scan using foo_x_idx on foo (cost=0.42..25980.42 rows=1000000 width=32) (actual time=0.031..122.668 rows=1000000 loops=1)
Heap Fetches: 0
Planning time: 0.090 ms
Execution time: 257.764 ms
(5 rows)
因此,要优化第二个选择查询,请在datetime上创建索引。查看EXPLAIN ANALYZE
。看看它是否被用作索引。如果这没有帮助或索引未被使用,您可以尝试set enable_seqscan = off
,然后重新运行查询。现在你知道节省了多少钱,如果有的话。您可以在此处粘贴这两个计划,我们可以查看它。
答案 1 :(得分:0)
无法优化第二个查询,它必须扫描整个表格以查找datetime
的所有可能值。
您可以做的最好的事情是通过使用TRUNCATE
而不是DELETE
清除表来查看表没有膨胀,并将足够的RAM放入计算机以便整个表位于RAM。