SELECT DISTINCT是否暗示Seq扫描?

时间:2018-10-05 01:27:04

标签: database postgresql

我想知道执行SELECT DISTINCT查询是否意味着要进行顺序扫描,以及如何进行优化。

我创建了一个虚拟表,并确认当没有索引时,SELECT DISTINCT进行Seq扫描。

test=# create table test2 (id SERIAL, t1 text);
CREATE TABLE
test=# insert into test2 select generate_series(0, 100000) AS id, md5(random()::text) AS t1;
INSERT 0 100001
test=# explain analyze select distinct t1 from test2;

结果:

                                                     QUERY PLAN
--------------------------------------------------------------------------------------------------------------------
 HashAggregate  (cost=2157.97..2159.97 rows=200 width=32) (actual time=54.086..77.352 rows=100000 loops=1)
   Group Key: t1
   ->  Seq Scan on test2  (cost=0.00..1893.18 rows=105918 width=32) (actual time=0.012..12.232 rows=100001 loops=1)
 Planning time: 0.079 ms
 Execution time: 86.345 ms
(5 rows)

当我们创建索引时:

test=# create index test2_idx_t1 on test2 (t1);
CREATE INDEX
test=# explain analyze select distinct t1 from test2;

结果:

第一次:

                                                    QUERY PLAN
-------------------------------------------------------------------------------------------------------------------
 HashAggregate  (cost=2084.01..2086.01 rows=200 width=32) (actual time=48.871..74.617 rows=100000 loops=1)
   Group Key: t1
   ->  Seq Scan on test2  (cost=0.00..1834.01 rows=100001 width=32) (actual time=0.009..9.891 rows=100001 loops=1)
 Planning time: 0.145 ms
 Execution time: 83.564 ms
(5 rows)

第二次及以后:

QUERY PLAN
----------------------------------------------------------------------------------------------------------------------------------------------
 Unique  (cost=0.42..7982.42 rows=100001 width=33) (actual time=0.016..80.949 rows=100000 loops=1)
   ->  Index Only Scan using test2_idx_t1 on test2  (cost=0.42..7732.42 rows=100001 width=33) (actual time=0.015..53.396 rows=100001 loops=1)
         Heap Fetches: 100001
 Planning time: 0.053 ms
 Execution time: 87.552 ms
(5 rows)
  1. 为什么在创建索引后第一次查询时进行Seq扫描?
  2. 在这种情况下,为什么索引扫描比seq扫描昂贵,为什么查询计划者选择它?

1 个答案:

答案 0 :(得分:0)

要获取有关表中所有行的查询结果,必须扫描整个表。

唯一避免顺序表扫描的方法是在t1上有一个索引,并有一个最近被清理的表,这样大多数块都是“可见的”。然后可以使用“仅索引扫描”,通常更便宜。

为什么不立即使用仅索引扫描?我不能绝对肯定地回答,但是一个很好的猜测是,当您第一次运行查询时,autovacuum仍然在桌子上忙。