添加第二个连接条件会以指数方式增加查询时间

时间:2015-07-17 13:57:15

标签: sql postgresql amazon-redshift

所以,我正在使用Redshift(基于postgres)。不幸的是,我不能分享我的数据(原因很明显),但无论如何它更像是一个概念性的问题。当然,我会分享我的代码。

此查询几乎立即返回:

select
    count(*)
from
    table_one as c
inner join
    table_two as z
on
    regexp_replace(c.telephone_number, '[^0-9]', '') = regexp_replace(z.affected_phone_number, '[^0-9]', '');

但是这个会运行几个小时:

select
    count(*)
from
    table_one as c
inner join
    table_two as z
on
    regexp_replace(c.telephone_number, '[^0-9]', '') = regexp_replace(z.affected_phone_number, '[^0-9]', '')
    or c.email = z.requester_email;

为什么在or添加第二个连接条件会导致此问题?

(我可以使用union来解决这个问题,但我有兴趣在这里学习......)

如果有帮助的话,请explain ......

问题查询的查询计划:

QUERY PLAN
XN Aggregate  (cost=159728183882.77..159728183882.77 rows=1 width=0)
  ->  XN Nested Loop DS_BCAST_INNER  (cost=0.00..159726036322.85 rows=859023969 width=0)
        Join Filter: ((regexp_replace(("inner".telephone_number)::text, '[^0-9]'::text, ''::text, 1) = regexp_replace(("outer".affected_phone_number)::text, '[^0-9]'::text, ''::text, 1)) OR (("inner".email)::text = ("outer".requester_email)::text))
        ->  XN Seq Scan on table_two z  (cost=0.00..4447.40 rows=444740 width=36)
        ->  XN Seq Scan on table_one c  (cost=0.00..3853.89 rows=385389 width=32)
----- Nested Loop Join in the query plan - review the join predicates to avoid Cartesian products -----

非问题查询的查询计划:

QUERY PLAN
XN Aggregate  (cost=62358556140.01..62358556140.01 rows=1 width=0)
  ->  XN Hash Join DS_BCAST_INNER  (cost=4817.36..62356413666.21 rows=856989520 width=0)
        Hash Cond: (regexp_replace(("outer".affected_phone_number)::text, '[^0-9]'::text, ''::text, 1) = regexp_replace(("inner".telephone_number)::text, '[^0-9]'::text, ''::text, 1))
        ->  XN Seq Scan on table_two z  (cost=0.00..4447.40 rows=444740 width=12)
        ->  XN Hash  (cost=3853.89..3853.89 rows=385389 width=8)
              ->  XN Seq Scan on table_one c  (cost=0.00..3853.89 rows=385389 width=8)

2 个答案:

答案 0 :(得分:1)

我们只能猜测为什么在没有数据库访问的情况下它很慢。

猜测不是适合性能优化的工具。

使用EXPLAIN语句查看postgres如何实际处理这两个语句。

答案 1 :(得分:1)

您是否在表架构中使用sortkey

如果没有,或者如果不在相应的字段上,则数据将按其插入顺序在节点中排序。这将导致你正在谈论的循环。

相反,在指定表架构时,请确保包含最常用的sortkey,请记住您可以拥有多个sortkeys

CREATE TABLE schemaex.a1.account_revenue (
    account_id varchar(30) NOT NULL,
    date date NOT NULL distkey,
    registration_date timestamp,
    revenue float(8),
    cost varchar(8),        
)
compound sortkey(account_id, date);

当将sortkey中的那些字段分别用作连接键和条件时,这应该会大大减少连接和聚合的执行时间。

Best Practices Sort Key