Question

我很想了解（也许改进）我在PostgreSQL 9.6中遇到的问题。名称已简化，但其他所有内容均来自psql会话。

我从物化视图mv开始。

首先，我创建了两个简单的函数：

CREATE FUNCTION count_mv() RETURNS BIGINT AS $$
SELECT COUNT(*) FROM mv;
$$ LANGUAGE SQL STABLE PARALLEL SAFE;

和

CREATE FUNCTION mv_pks() RETURNS TABLE (table_pk INTEGER) AS $$
SELECT table_pk FROM mv;
$$ LANGUAGE SQL STABLE PARALLEL SAFE;

让我们来讨论一些问题。

db=>\timing on

我可以非常快速地计算物化视图的结果。

db=> SELECT COUNT(*) FROM mv;
  count
---------
 2567883
(1 row)

Time: 79.803 ms

让我们看看它是如何做到的。

db=> EXPLAIN ANALYZE SELECT COUNT(*) FROM mv;
                                                                  QUERY PLAN
-----------------------------------------------------------------------------------------------------------------------------------------------
 Finalize Aggregate  (cost=41331.24..41331.25 rows=1 width=8) (actual time=765.681..765.681 rows=1 loops=1)
   ->  Gather  (cost=41330.62..41331.23 rows=6 width=8) (actual time=765.557..765.670 rows=7 loops=1)
         Workers Planned: 6
         Workers Launched: 6
         ->  Partial Aggregate  (cost=40330.62..40330.63 rows=1 width=8) (actual time=760.175..760.175 rows=1 loops=7)
               ->  Parallel Seq Scan on mv  (cost=0.00..39261.09 rows=427809 width=0) (actual time=0.014..397.952 rows=366840 loops=7)
 Planning time: 0.326 ms
 Execution time: 769.934 ms
(8 rows)

好。所以它利用了多个工人。但是，使用EXPLAIN ANALYZE时，为什么查询会慢得多？

现在我使用count_mv()函数，该函数具有相同的基础SQL，并声明为STABLE。

db=> select count_mv();
  count_mv
------------
    2567883
(1 row)

Time: 406.058 ms

哇！为什么这比物化视图上的相同SQL慢？而且慢很多！是不是利用并行工人，如果没有，为什么不呢？

开始编辑

正如下面的答案中所提出的，我加载了auto_explain模块，并在函数调用中检查了EXPLAIN的日志输出。

    Query Text:
    SELECT COUNT(*) FROM mv;

     Finalize Aggregate  (cost=41331.60..41331.61 rows=1 width=8) (actual time=1345.446..1345.446 rows=1 loops=1)
       ->  Gather  (cost=41330.97..41331.58 rows=6 width=8) (actual time=1345.438..1345.440 rows=1 loops=1)
            Workers Planned: 6
            Workers Launched: 0
             ->  Partial Aggregate  (cost=40330.97..40330.99 rows=1 width=8) (actual time=1345.435..1345.435 rows=1 loops=1)
                  ->  Parallel Seq Scan on mv  (cost=0.00..39261.38 rows=427838 width=0) (actual time=0.020..791.022 rows=2567883 loops=1)

新问题是为什么计划了6名工人，但没有人员被启动。服务器空闲，配置相同，查询相同。

结束编辑

好的。那么如果我这样做会怎么样：

db=> SELECT COUNT(*) FROM mv_pks();
  count
---------
 2567883
(1 row)

Time: 72.687 ms

与在不使用EXPLAIN ANALYZE的情况下直接计算物化视图中的行的性能相同，但您必须在此信任我：此函数的性能取决于函数化时视图的状态被建造。这里的快速计时是表空时创建函数的结果。如果我在表格已满时重新创建该功能，则该功能需要超过1000毫秒才能运行！

总结我的问题：

为什么STABLE SQL函数中的SQL查询没有比该函数之外的查询慢得多的参数。
使用EXPLAIN ANALYZE时，为什么SQL查询会慢得多？
为什么在计算函数中的行时会得到所有不同的结果，这些行可以等效地快速计算物化视图中的行数，或者比任何其他方法慢，具体取决于函数的创建时间？

提前致谢！

Answer 1

对于1），您可以使用auto_explain找到自己，它可以显示函数内部查询的计划。它是否使用并行计划？

对于2）这是测量的开销，这取决于平台，但可能很高。

对于3）比较两种情况下的SQL计划。 SQL函数中的查询不会被缓存，所以我没有解释为什么它应该像这样。您是否多次重复测试以排除您是否看到从磁盘读取与从缓存读取的效果？

了解查询与EXPLAIN与函数的COUNT行为

1 个答案: