我使用的是Microsoft SQL Server 2008(SP1,x64)。我有两个相同的查询,或者我认为,但它们的查询计划和性能完全不同。
查询1:
SELECT c_pk
FROM table_c
WHERE c_b_id IN (SELECT b_id FROM table_b WHERE b_z = 1)
OR c_a_id IN (SELECT a_id FROM table_a WHERE a_z = 1)
查询2:
SELECT c_pk
FROM table_c
LEFT JOIN (SELECT b_id FROM table_b WHERE b_z = 1) AS b ON c_b_id = b_id
LEFT JOIN (SELECT a_id FROM table_a WHERE a_z = 1) AS a ON c_a_id = a_id
WHERE b_id IS NOT NULL
OR a_id IS NOT NULL
查询1正如我所料的那样快,而查询2非常慢。 query plans看起来很不一样。
我希望查询2与查询1一样快。我有使用查询2的软件,我无法将其更改为查询1.我可以更改数据库。
有些问题:
所有表都有(群集的)主键和所有列上的正确索引:
CREATE TABLE table_a (
a_pk int NOT NULL PRIMARY KEY,
a_id int NOT NULL UNIQUE,
a_z int
)
GO
CREATE INDEX IX_table_a_z ON table_a (a_z)
GO
CREATE TABLE table_b (
b_pk int NOT NULL PRIMARY KEY,
b_id int NOT NULL UNIQUE,
b_z int
)
GO
CREATE INDEX IX_table_b_z ON table_b (b_z)
GO
CREATE TABLE table_c (
c_pk int NOT NULL PRIMARY KEY,
c_a_id int,
c_b_id int
)
GO
CREATE INDEX IX_table_c_a_id ON table_c (c_a_id)
GO
CREATE INDEX IX_table_c_b_id ON table_c (c_b_id)
GO
最初填写后,表格不会被修改。我是唯一一个在询问他们的人。它们包含数百万条记录(table_a:5M,table_b:4M,table_c:12M),但仅使用1%会得到类似的结果。
修改:我尝试为c_a_id
和c_b_id
添加FOREIGN KEY,但这只会使查询1变慢...
我希望有人可以查看query plans并解释其中的差异。
答案 0 :(得分:1)
加入速度较慢,让我说按设计。第一个查询使用子查询(可缓存)来过滤记录,因此它将产生更少的数据(并减少对每个表的访问)。
你读过这些:
我的意思是,使用IN,数据库可以做更好的优化,例如删除重复项,停止第一场比赛和类似(这些来自学校记忆,所以我'我相信它会做得更好。所以我猜测这个问题不是QP与众不同的原因,而是多么深入的优化程度。
答案 1 :(得分:0)
您正在比较非等效查询,您也正在以非常不寻常的方式使用左连接。 通常,如果您的意图是选择table_c中的所有条目,这些条目在table_a或table_b中链接了记录,则应使用exists语句:
SELECT c_pk
FROM table_c
WHERE Exists(
SELECT 1
FROM table_b
WHERE b_z = 1 and c_b_id = b_id
) OR Exists(
SELECT 1
FROM table_a
WHERE a_z = 1 and c_a_id = a_id
)
答案 2 :(得分:0)
由于您无法更改查询,至少可以改善查询的环境。