SQL WHERE子句性能下降

时间:2012-07-01 16:43:07

标签: sql-server performance tsql

我有一个我正在处理的查询,它显示的是我不希望出现的性能问题。这是迄今为止的查询。

INSERT INTO @Bridge (PolicyNumber, ProducerCode, BridgeDate, EffectiveDate, FirstName, LastName, LicenseNumber, BirthDate, Address, City, State, ZipCode)
SELECT     tab.col.value('@PolicyNumber', 'VARCHAR(10)') AS PolicyNumber,
           tab.col.value('@ProducerCode','VARCHAR(10)') as ProducerCode,
           tab.col.value('@BridgeDate','DATETIME') AS BridgeDate,
           tab.col.value('@EffectiveDate', 'DATETIME') as EffectiveDate,
           tab.col.value('@FirstName', 'VARCHAR(200)') as FirstName,
           tab.col.value('@LastName', 'VARCHAR(200)') as LastName,
           CASE 
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%0000%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%1111%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%2222%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%3333%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%4444%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%5555%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%6666%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%7777%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%8888%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%9999%' THEN NULL
              ELSE tab.col.value('@LicenseNumber','VARCHAR(50)')
           END as LicenseNumber,
           tab.col.value('@BirthDate','DATETIME') as BirthDate,
           REPLACE(tab.col.value('@Address1','VARCHAR(300)'), ' APT ',' #') as Address1,
           tab.col.value('@City','VARCHAR(300)') as City,
           tab.col.value('@State','VARCHAR(5)') as State,
           tab.col.value('@ZipCode','VARCHAR(10)') as Zip
FROM       @xml.nodes('//rows/datarow') as tab(col)

SELECT     B.PolicyNumber, 
           B.ProducerCode, 
           B.BridgeDate,
           B.EffectiveDate,
           H.current_policy,
           H.cancel_date,
           H.first_eff_date,
           H.display_address,
           H.city,
           H.state,
           H.zip
FROM       @Bridge B
LEFT JOIN  (
SELECT     P.policy_id,
           P.current_policy,
           CASE 
              WHEN A.pobox <> '' THEN 'PO BOX ' + REPLACE(A.pobox,'PO BOX ','')
              ELSE RTRIM(A.house_num + ' ' + A.street_name + ' ' + CASE
                                                                      WHEN A.apt_num = '' THEN ''
                                                                      ELSE '#' + A.apt_num
                                                                    END)
           END as display_address,
           A.pobox,
           A.house_num,
           A.street_name,
           A.apt_num,
           A.city,
           MAX(A.policyimage_num) as policimage_num, --this is just to limit the results to the most recent
           S.state,
           A.zip,
           P.first_eff_date,
           P.cancel_date
FROM       Diamond.dbo.Policy P WITH (NOLOCK)
LEFT JOIN  Diamond.dbo.Address A WITH (NOLOCK)
ON         P.policy_id = A.policy_id
AND        A.nameaddresssource_id = 3
LEFT JOIN  Diamond.dbo.State S WITH (NOLOCK)
ON         A.state_id = S.state_id
WHERE      A.state_id IS NOT NULL
AND        P.current_policy NOT IN (SELECT PolicyNumber FROM @Bridge)
GROUP BY   P.policy_id,
           P.current_policy,
           P.cancel_date,
           P.first_eff_date,
           A.pobox,
           A.house_num,
           A.street_name,
           A.apt_num,
           A.city,
           S.state,
           A.zip) AS H
ON         B.Address = H.display_address
AND        B.State = H.state
AND        B.City = H.city
AND        SUBSTRING(B.ZipCode,1,5) = SUBSTRING(H.Zip,1,5)
AND        B.PolicyNumber != H.current_policy
WHERE      H.current_policy IS NOT NULL

此查询自行运行,大约在1:30后完成。但是,如果我将以下内容添加到WHERE子句

AND       B.EffectiveDate != H.first_eff_date

突然,查询需要更长时间才能返回结果。 (我正在写这篇文章的时间超过15分钟仍在继续)我认为仅仅通过一个条款来清除一些额外的行就不会产生如此剧烈的影响,但显然确实如此。我如何解决它,我只是好奇,如果有人有任何想法,为什么它有这种效果?

1 个答案:

答案 0 :(得分:0)

如果没有动手,我只能猜到这一点,但这里有一些地方,我认为你可以整理一下,可能会减少运行时间。

1,您复制了确保政策号码不匹配所需的工作量。选择你拥有的两个中的一个,而不是两个。我建议尝试两者看哪个更快。

即。这样:

AND        P.current_policy NOT IN (SELECT PolicyNumber FROM @Bridge)

与此相同,你不需要两者。

AND        B.PolicyNumber != H.current_policy

2,值得尝试从子查询中删除所有分组 - 您实际上并未使用policimage_num进行任何操作。那么为什么分组呢?如果您担心从地址返回许多行,那么您可以在列集上使用DISTINCT,这可能会更快。

3,A.state_id是否可以为空?如果不考虑尝试INNER JOIN来解决并删除空检查。

4,老实说,我根本没有看到这个子查询的明显原因,似乎过于复杂。你能否在没有它的情况下简单地将表连接在一起(如果需要,再次使用DISTINCT)?

换句话说,如果你尝试了一些这样的想法,我打赌你可以把它降到最初的运行时间之下。