以下查询执行得很糟糕,因为P4FileReleases中有650万条记录的完整非聚集索引扫描,后跟散列连接。我正在寻找优化器通过搜索选择扫描的可能原因。
SELECT p4f.FileReleaseID
FROM P4FileReleases p4f
INNER JOIN AnalyzedFileView af
ON p4f.FileRelease = (af.path+'#'+cast(af.revision as varchar))
WHERE (af.tracked_change_id = 1)
据我所知,我认为优化器没有理由选择P4FileReleases的扫描。 WHERE子句将右侧数据集的大小限制为大约1K的记录,优化器应该知道它(参见下面的直方图)。
如果我接受视图数据并将其抛入堆表(与索引视图相同的结构),则执行查询,在较大的表上使用索引搜索并使用内部联接循环而不是哈希加入(总成本从145下降到1左右)。
关于可能抛弃优化器的任何想法?
详细信息。:Sql Server 2008(v.10.0.2757.0)。
P4FileReleases表 持有650万条记录
CREATE TABLE [dbo].[P4FileReleases](
[FileReleaseID] [int] IDENTITY(1,1) NOT NULL,
[FileRelease] [varchar](254) NOT NULL,
-- 5 more fields
CONSTRAINT [CIX_P4FileReleases_FileReleaseID_PK] PRIMARY KEY CLUSTERED
(
[FileReleaseID] ASC
),
CONSTRAINT [NCIX_P4FileReleases_FileRelease] UNIQUE NONCLUSTERED
(
[FileRelease] ASC
)
AnalyzedFileView 是一个启用了统计信息并且是最新的索引视图。
它有四列:
key int (int, PK) - clustered index
tracked_change_id (int, FK) - non-unique, non-clustered index (covering 'path', 'revision')
path (nvarchar(1024), null)
revision (smallint, null)
tracked_change_id直方图:
1 0 1222 0 1
4 0 787 0 1
8 0 2754 0 1
12 0 254 0 1
13 0 34 0 1
查询计划
|--Parallelism(Gather Streams)
|--Hash Match(Inner Join, HASH:([Expr1011])=([Expr1010]), RESIDUAL:([Expr1010]=[Expr1011]))
|--Bitmap(HASH:([Expr1011]), DEFINE:([Bitmap1015]))
| |--Parallelism(Repartition Streams, Hash Partitioning, PARTITION COLUMNS:([Expr1011]))
| |--Compute Scalar(DEFINE:([Expr1011]=([qpsitools].[dbo].[analyzed_file_view].[path]+N'#')+CONVERT_IMPLICIT(nvarchar(30),CONVERT(varchar(30),[qpsitools].[dbo].[analyzed_file_view].[revision],0),0)))
| |--Index Seek(OBJECT:([qpsitools].[dbo].[analyzed_file_view].[tracked_change_id]), SEEK:([qpsitools].[dbo].[analyzed_file_view].[tracked_change_id]=(1)) ORDERED FORWARD)
|--Parallelism(Repartition Streams, Hash Partitioning, PARTITION COLUMNS:([Expr1010]), WHERE:(PROBE([Bitmap1015],[Expr1010])))
|--Compute Scalar(DEFINE:([Expr1010]=CONVERT_IMPLICIT(nvarchar(254),[Blueprint].[dbo].[P4FileReleases].[FileRelease] as [p4f].[FileRelease],0)))
|--Index Scan(OBJECT:([Blueprint].[dbo].[P4FileReleases].[NCIX_P4FileReleases_FileRelease] AS [p4f]))
答案 0 :(得分:5)
您正在使用nvarchar列(af.path)加入varchar列p4f.FileRelease。由于数据类型不匹配,SQL必须将一个类型转换为另一个类型(当然它不能从nvarchar转换为varchar)。在将af.path转换为nvarchar时,它失去了使用索引查找/过滤这些值的能力,导致需要扫描和转换所有可能的行。
最佳解决方案是将数据存储为匹配的数据类型(将列p4f.FileRelase更改为nvarchar,或将af.path更改为varchar)。由于没有人能够修改现有的数据库结构,因此解决方法可能是在查询中将af.path明确地转换为varchar。测试它并看到......但是如果数据真的需要双字节格式化,你当然不能这样做。
答案 1 :(得分:2)
你的问题不是WHERE而是JOIN,你得到一个隐式转换和扫描JOIN,在WHERE条件下你得到了一个SEEK
ON p4f.FileRelease = (af.path+'#'+cast(af.revision as varchar))
并行性也可能是一个问题,尝试添加MAXDOP = 1
您的统计信息是最新的吗?是否存在过度分裂?
答案 2 :(得分:0)
尝试将“af.tracked_change_id = 1”移动到join子句中。
INNER JOIN AnalyzedFileView af
ON p4f.FileRelease = (af.path+'#'+cast(af.revision as varchar))
AND af.tracked_change_id = 1
在INNER JOIN
之后应用WHERE答案 3 :(得分:0)