PostgreSQL的。优化从大表中查找不同的值

时间:2017-11-06 09:10:41

标签: postgresql query-optimization distinct postgresql-9.6

我有一个非标准化表,有40多列(约150万行,1 Gb)。

CREATE TABLE tbl1 (
  ...
  division_id integer,
  division_name varchar(10),
  ...
);

我需要加快查询速度

SELECT DISTINCT division_name, division_id 
FROM table 
ORDER BY division_name;

查询只返回~250行,但导致表的大小非常慢。

我试图创建索引:

create index idx1 on  tbl1 (division_name, division_id)

但目前的执行计划:

explain analyze SELECT Distinct division_name, division_id FROM tbl1 ORDER BY 1;

          QUERY PLAN                                                                    
-----------------------------------------------------------------
Sort  (cost=143135.77..143197.64 rows=24748 width=74) (actual time=1925.697..1925.723 rows=294 loops=1)
Sort Key: division_name
    Sort Method: quicksort  Memory: 74kB
    ->  HashAggregate  (cost=141082.30..141329.78 rows=24748 width=74) (actual time=1923.853..1923.974 rows=294 loops=1)
             Group Key: division_name, division_id
             ->  Seq Scan on tbl1  (cost=0.00..132866.20 rows=1643220 width=74) (actual time=0.069..703.008 rows=1643220 loops=1)
Planning time: 0.311 ms
Execution time: 1925.883 ms

有什么建议为什么索引不起作用或我如何以其他方式加快查询?

Server Postgresql 9.6。

P.S。是的,表格有40多列并且已经去标准化,但我知道所有的利弊都可以做出决定。

Update1

@a_horse_with_no_name建议使用vacuum analyze而不是analyze来更新表统计信息。现在查询plain是:

QUERY PLAN                                                                                
------------------------
 Unique  (cost=0.55..115753.43 rows=25208 width=74) (actual time=0.165..921.426 rows=294 loops=1)
   ->  Index Only Scan using idx1 on tbl1  (cost=0.55..107538.21 rows=1643044 width=74) (actual time=0.162..593.322 rows=1643220 loops=1)
         Heap Fetches: 0

好多了!

1 个答案:

答案 0 :(得分:2)

索引可能只有在PostgreSQL选择“仅索引扫描”时才有用,这意味着它根本不需要查看表数据。

通常,PostgreSQL必须检查表数据(“堆”)以查看当前事务的行是否可见,因为可见性信息未存储在索引中。

但是,如果表格没有太大变化并且最近已被VACUUM编辑,PostgreSQL知道大多数页面只包含每个人都可见的项目(有一个“可见性图”可以跟踪那些信息),然后扫描索引可能会更便宜。

尝试在表格上运行VACUUM,看看是否会导致仅使用索引扫描。

除此之外,没有办法加快这样的查询。