Question

我使用的是Microsoft SQL Server 2008（SP1，x64）。我有两个相同的查询，或者我认为，但它们的查询计划和性能完全不同。

查询1：

SELECT c_pk
FROM table_c
WHERE c_b_id IN (SELECT b_id FROM table_b WHERE b_z = 1)
  OR  c_a_id IN (SELECT a_id FROM table_a WHERE a_z = 1)

查询2：

SELECT c_pk
FROM table_c
LEFT JOIN (SELECT b_id FROM table_b WHERE b_z = 1) AS b ON c_b_id = b_id
LEFT JOIN (SELECT a_id FROM table_a WHERE a_z = 1) AS a ON c_a_id = a_id
WHERE b_id IS NOT NULL
  OR  a_id IS NOT NULL

查询1正如我所料的那样快，而查询2非常慢。 query plans看起来很不一样。

我希望查询2与查询1一样快。我有使用查询2的软件，我无法将其更改为查询1.我可以更改数据库。

有些问题：

为什么查询计划不同？
我能以某种方式“教”SQL Server查询2等于查询1吗？

所有表都有（群集的）主键和所有列上的正确索引：

CREATE TABLE table_a (
  a_pk   int NOT NULL PRIMARY KEY,
  a_id   int NOT NULL UNIQUE,
  a_z    int
)
GO
CREATE INDEX IX_table_a_z ON table_a (a_z)
GO

CREATE TABLE table_b (
  b_pk   int NOT NULL PRIMARY KEY,
  b_id   int NOT NULL UNIQUE,
  b_z    int
)
GO
CREATE INDEX IX_table_b_z ON table_b (b_z)
GO

CREATE TABLE table_c (
  c_pk   int NOT NULL PRIMARY KEY,
  c_a_id int,
  c_b_id int
)
GO
CREATE INDEX IX_table_c_a_id ON table_c (c_a_id)
GO
CREATE INDEX IX_table_c_b_id ON table_c (c_b_id)
GO

最初填写后，表格不会被修改。我是唯一一个在询问他们的人。它们包含数百万条记录（table_a：5M，table_b：4M，table_c：12M），但仅使用1％会得到类似的结果。

修改：我尝试为c_a_id和c_b_id添加FOREIGN KEY，但这只会使查询1变慢...

我希望有人可以查看query plans并解释其中的差异。

Answer 1

加入速度较慢，让我说按设计。第一个查询使用子查询（可缓存）来过滤记录，因此它将产生更少的数据（并减少对每个表的访问）。

你读过这些：

我的意思是，使用IN，数据库可以做更好的优化，例如删除重复项，停止第一场比赛和类似（这些来自学校记忆，所以我'我相信它会做得更好。所以我猜测这个问题不是QP与众不同的原因，而是多么深入的优化程度。

Answer 2

您正在比较非等效查询，您也正在以非常不寻常的方式使用左连接。通常，如果您的意图是选择table_c中的所有条目，这些条目在table_a或table_b中链接了记录，则应使用exists语句：

SELECT c_pk 
FROM table_c 
WHERE  Exists( 
 SELECT 1
 FROM table_b 
 WHERE b_z = 1 and c_b_id = b_id 
) OR  Exists( 
 SELECT 1 
 FROM table_a 
 WHERE a_z = 1 and c_a_id = a_id
)

Answer 3

由于您无法更改查询，至少可以改善查询的环境。

突出显示您的查询，在SSMS中右键单击它，然后选择“分析” 在数据库引擎优化顾问中查询。“
运行分析以确定是否需要任何其他索引或建立统计数据。
听取SQL Server的建议。

使用OR的这些T-SQL查询之间有什么区别？

3 个答案: