摆脱全索引扫描

时间:2010-07-06 18:07:37

标签: sql-server tsql sql-server-2008 query-optimization

以下查询执行得很糟糕,因为P4FileReleases中有650万条记录的完整非聚集索引扫描,后跟散列连接。我正在寻找优化器通过搜索选择扫描的可能原因。

SELECT p4f.FileReleaseID 
   FROM P4FileReleases p4f
   INNER JOIN AnalyzedFileView af 
      ON p4f.FileRelease = (af.path+'#'+cast(af.revision as varchar))  
   WHERE (af.tracked_change_id = 1)

据我所知,我认为优化器没有理由选择P4FileReleases的扫描。 WHERE子句将右侧数据集的大小限制为大约1K的记录,优化器应该知道它(参见下面的直方图)。

如果我接受视图数据并将其抛入堆表(与索引视图相同的结构),则执行查询,在较大的表上使用索引搜索并使用内部联接循环而不是哈希加入(总成本从145下降到1左右)。

关于可能抛弃优化器的任何想法?

详细信息。:Sql Server 2008(v.10.0.2757.0)。

P4FileReleases表 持有650万条记录

CREATE TABLE [dbo].[P4FileReleases](
    [FileReleaseID] [int] IDENTITY(1,1) NOT NULL,
    [FileRelease] [varchar](254) NOT NULL,
    -- 5 more fields 
 CONSTRAINT [CIX_P4FileReleases_FileReleaseID_PK] PRIMARY KEY CLUSTERED 
(
    [FileReleaseID] ASC
),
CONSTRAINT [NCIX_P4FileReleases_FileRelease] UNIQUE NONCLUSTERED 
(
    [FileRelease] ASC
)

AnalyzedFileView 是一个启用了统计信息并且是最新的索引视图。

它有四列:

   key int (int, PK) - clustered index
   tracked_change_id (int, FK) - non-unique, non-clustered index (covering 'path', 'revision')
   path (nvarchar(1024), null) 
   revision (smallint, null)

tracked_change_id直方图:

1   0   1222    0   1
4   0   787     0   1
8   0   2754    0   1
12  0   254     0   1
13  0   34      0   1

查询计划

  |--Parallelism(Gather Streams)
       |--Hash Match(Inner Join, HASH:([Expr1011])=([Expr1010]), RESIDUAL:([Expr1010]=[Expr1011]))
            |--Bitmap(HASH:([Expr1011]), DEFINE:([Bitmap1015]))
            |    |--Parallelism(Repartition Streams, Hash Partitioning, PARTITION COLUMNS:([Expr1011]))
            |         |--Compute Scalar(DEFINE:([Expr1011]=([qpsitools].[dbo].[analyzed_file_view].[path]+N'#')+CONVERT_IMPLICIT(nvarchar(30),CONVERT(varchar(30),[qpsitools].[dbo].[analyzed_file_view].[revision],0),0)))
            |              |--Index Seek(OBJECT:([qpsitools].[dbo].[analyzed_file_view].[tracked_change_id]), SEEK:([qpsitools].[dbo].[analyzed_file_view].[tracked_change_id]=(1)) ORDERED FORWARD)
            |--Parallelism(Repartition Streams, Hash Partitioning, PARTITION COLUMNS:([Expr1010]), WHERE:(PROBE([Bitmap1015],[Expr1010])))
                 |--Compute Scalar(DEFINE:([Expr1010]=CONVERT_IMPLICIT(nvarchar(254),[Blueprint].[dbo].[P4FileReleases].[FileRelease] as [p4f].[FileRelease],0)))
                      |--Index Scan(OBJECT:([Blueprint].[dbo].[P4FileReleases].[NCIX_P4FileReleases_FileRelease] AS [p4f]))

4 个答案:

答案 0 :(得分:5)

您正在使用nvarchar列(af.path)加入varchar列p4f.FileRelease。由于数据类型不匹配,SQL必须将一个类型转换为另一个类型(当然它不能从nvarchar转换为varchar)。在将af.path转换为nvarchar时,它失去了使用索引查找/过滤这些值的能力,导致需要扫描和转换所有可能的行。

最佳解决方案是将数据存储为匹配的数据类型(将列p4f.FileRelase更改为nvarchar,或将af.path更改为varchar)。由于没有人能够修改现有的数据库结构,因此解决方法可能是在查询中将af.path明确地转换为varchar。测试它并看到......但是如果数据真的需要双字节格式化,你当然不能这样做。

答案 1 :(得分:2)

你的问题不是WHERE而是JOIN,你得到一个隐式转换和扫描JOIN,在WHERE条件下你得到了一个SEEK

ON p4f.FileRelease = (af.path+'#'+cast(af.revision as varchar))  

并行性也可能是一个问题,尝试添加MAXDOP = 1

您的统计信息是最新的吗?是否存在过度分裂?

答案 2 :(得分:0)

尝试将“af.tracked_change_id = 1”移动到join子句中。

INNER JOIN AnalyzedFileView af 
ON p4f.FileRelease = (af.path+'#'+cast(af.revision as varchar))
AND af.tracked_change_id = 1

在INNER JOIN

之后应用WHERE

答案 3 :(得分:0)

菲利普凯利发现了这个问题。这是P4FileReleases中的varchar和AnalyzedFileView中的nvarchar之间的数据类型不匹配。