Postgresql:内连接需要70秒

时间:2012-10-26 14:02:26

标签: database performance postgresql postgresql-performance

我有两张桌子 -

表A:1MM行, AsOfDate,Id,BId(表B的外键)

表B:50k行, Id,Flag,ValidFrom,ValidTo

表A包含2011/01/01和2011/12/31之间每100个BId的多条记录。 表B包含100个投标的多个非重叠(有效和有效)记录。

连接的任务是返回给定AsOfDate上为BId激活的标志。

select 
    a.AsOfDate, b.Flag 
from 
    A a inner Join B b on 
        a.BId = b.BId and b.ValidFrom <= a.AsOfDate and b.ValidTo >= a.AsOfDate
where
    a.AsOfDate >= 20110101 and a.AsOfDate <= 20111231

在具有64Gb内存的高端服务器(+ 3Ghz)上,此查询需要约70秒。

我在测试时对每个字段组合都有索引 - 无济于事。

索引:a.AsOfDate,a.AsOfDate + a.bId,a.bid 索引:b.bid,b.bid + b.validfrom

还尝试了下面建议的范围查询(62秒)

对VM中运行的Sql Server的免费版本进行相同的查询需要大约1秒才能完成。

任何想法?

Postgres 9.2

查询计划

QUERY PLAN                                       
---------------------------------------------------------------------------------------
Aggregate  (cost=8274298.83..8274298.84 rows=1 width=0)
->  Hash Join  (cost=1692.25..8137039.36 rows=54903787 width=0)
    Hash Cond: (a.bid = b.bid)
     Join Filter: ((b.validfrom <= a.asofdate) AND (b.validto >= a.asofdate))
     ->  Seq Scan on "A" a  (cost=0.00..37727.00 rows=986467 width=12)
           Filter: ((asofdate > 20110101) AND (asofdate < 20111231))
     ->  Hash  (cost=821.00..821.00 rows=50100 width=12)
           ->  Seq Scan on "B" b  (cost=0.00..821.00 rows=50100 width=12)

请参阅http://explain.depesz.com/s/1c5了解分析输出

here is the query plan from sqlserver for the same query

2 个答案:

答案 0 :(得分:0)

考虑使用postgresql 9.2中可用的范围类型:

create index on a using gist(int4range(asofdate, asofdate, '[]'));
create index on b using gist(int4range(validfrom, validto, '[]'));

您可以查询匹配范围内的日期,如下所示:

select * from a
where int4range(asofdate,asofdate,'[]') && int4range(20110101, 20111231, '[]');

对于b中的行重叠记录,如此:

select *
from b
    join a on int4range(b.validfrom,b.validto,'[]') @> a.asofdate
where a.id = 1

&&表示&#34;重叠&#34;,@>表示&#34;包含&#34;,'[]'表示创建包含两个终点的范围)

答案 1 :(得分:0)

问题与索引有关 - 由于某些原因我不清楚,查询分析器没有正确引用表上的索引 - 我将它们全部删除,添加它们(完全相同 - 通过脚本)和查询现在需要~303ms。

感谢这个非常令人沮丧的问题的所有帮助。