假设我想用几个WHERE
过滤器查询一个大表。我正在使用Postgres 11和一个外部表;外部数据包装器(FDW)为clickhouse_fdw
。但我也对通用解决方案感兴趣。
我可以这样做,如下:
SELECT id,c1,c2,c3 from big_table where id=3 and c1=2
我的FDW能够对远程外部数据源进行过滤,确保上面的查询是快速的,并且不会提取太多数据。
如果我写的话,上面的方法是一样的
SELECT id,c1,c2,c3 from big_table where id IN (3,4,5) and c1=2
也就是说,所有过滤条件都向下游发送。
但是,如果我要进行的过滤稍微复杂一点:
SELECT bt.id,bt.c1,bt.c2,bt.c3
from big_table bt
join lookup_table l on bt.id=l.id
where c1=2 and l.x=5
然后查询计划者决定对c1=2
进行远程过滤,而在本地应用其他过滤器。
在我的用例中,先计算哪些id
具有l.x=5
,然后将其发送以进行远程过滤会更快,所以我尝试通过以下方式编写它:
SELECT id,c1,c2,c3
from big_table
where c1=2
and id IN (select id from lookup_table where x=5)
但是,查询计划者仍决定对big_table
中满足c1=2
的所有结果进行本地第二过滤,这非常慢。
是否可以通过某种方式“强制” (select id from lookup_table where x=5)
作为远程过滤器的一部分进行预先计算和发送?
答案 0 :(得分:2)
通常,联接或子查询或CTE的任何派生表在外部服务器上不可用,必须在本地执行。也就是说,示例中的简单WHERE
子句之后剩余的所有行都必须像您观察到的那样在本地进行检索和处理。
如果其他所有方法均失败,则可以执行子查询SELECT id FROM lookup_table WHERE x = 5
并将结果连接到查询字符串中。
更方便的是,您可以使用PL / pgSQL函数中的动态SQL和EXECUTE
自动执行此操作。喜欢:
CREATE OR REPLACE FUNCTION my_func(_c1 int, _l_id int)
RETURNS TABLE(id int, c1 int, c2 int, c3 int) AS
$func$
BEGIN
RETURN QUERY EXECUTE
'SELECT id,c1,c2,c3 FROM big_table
WHERE c1 = $1
AND id = ANY ($2)'
USING _c1
, ARRAY(SELECT l.id FROM lookup_table l WHERE l.x = _l_id);
END
$func$ LANGUAGE plpgsql;
相关:
或者您可以在psql中使用元命令\gexec
。参见:
或者这可能有效:(反馈说无效。)
SELECT id,c1,c2,c3
FROM big_table
WHERE c1 = 2
AND id = ANY (ARRAY(SELECT id FROM lookup_table WHERE x = 5));
在本地测试,我得到一个这样的查询计划:
Index Scan using big_table_idx on big_table (cost= ...) Index Cond: (id = ANY ($0)) Filter: (c1 = 2) InitPlan 1 (returns $0) -> Seq Scan on lookup_table (cost= ...) Filter: (x = 5)
强调粗体。
计划中的参数 $0
激发了希望。生成的数组可能是Postgres可以传递给远程使用的东西。我看不出有其他尝试或您自己尝试过的类似计划。您可以用您的fdw测试吗?
有关postgres_fdw
的相关问题:
那是另外一个故事。只需使用CTE。但是我不希望这对FDW有帮助。
WITH cte AS (SELECT id FROM lookup_table WHERE x = 5)
SELECT id,c1,c2,c3
FROM big_table b
JOIN cte USING (id)
WHERE b.c1 = 2;
PostgreSQL 12 的行为得到了改善(改进),因此,在满足某些先决条件的情况下,可以像子查询一样内联CTE。但是,引用the manual:
您可以通过指定
MATERIALIZED
强制执行WITH查询的单独计算来覆盖该决定
所以:
WITH cte AS MATERIALIZED (SELECT id FROM lookup_table WHERE x = 5)
...
通常,如果您的数据库服务器配置正确且列统计信息是最新的,则无需执行任何操作。但是,有些极端情况下数据分布不均...