这个公用表表达式的结果被评估了多少次?

时间:2010-08-18 11:02:55

标签: sql sql-server common-table-expression

我正在尝试找出我们在上一次测试过程中发现的错误。它涉及使用公用表表达式的查询。查询的主题是它模拟“第一个”聚合操作(获取此分组的第一行)。

问题是查询似乎在某些情况下完全随意地选择行 - 来自同一组的多行返回,一些组完全被删除。但是,总是选择正确的行数。

我已经创建了一个在此发布的最小示例。有客户端和地址,以及定义它们之间关系的表。这是我正在查看的实际查询的很多简化版本,但我相信它应该具有相同的特性,并且它是一个很好的例子,用来解释我认为出了什么问题。

CREATE TABLE [Client] (ClientID int, Name varchar(20))
CREATE TABLE [Address] (AddressID int, Street varchar(20))
CREATE TABLE [ClientAddress] (ClientID int, AddressID int)

INSERT [Client] VALUES (1, 'Adam')
INSERT [Client] VALUES (2, 'Brian')
INSERT [Client] VALUES (3, 'Charles')
INSERT [Client] VALUES (4, 'Dean')
INSERT [Client] VALUES (5, 'Edward')
INSERT [Client] VALUES (6, 'Frank')
INSERT [Client] VALUES (7, 'Gene')
INSERT [Client] VALUES (8, 'Harry')

INSERT [Address] VALUES (1, 'Acorn Street')
INSERT [Address] VALUES (2, 'Birch Road')
INSERT [Address] VALUES (3, 'Cork Avenue')
INSERT [Address] VALUES (4, 'Derby Grove')
INSERT [Address] VALUES (5, 'Evergreen Drive')
INSERT [Address] VALUES (6, 'Fern Close')

INSERT [ClientAddress] VALUES (1, 1)
INSERT [ClientAddress] VALUES (1, 3)
INSERT [ClientAddress] VALUES (2, 2)
INSERT [ClientAddress] VALUES (2, 4)
INSERT [ClientAddress] VALUES (2, 6)
INSERT [ClientAddress] VALUES (3, 3)
INSERT [ClientAddress] VALUES (3, 5)
INSERT [ClientAddress] VALUES (3, 1)
INSERT [ClientAddress] VALUES (4, 4)
INSERT [ClientAddress] VALUES (4, 6)
INSERT [ClientAddress] VALUES (5, 1)
INSERT [ClientAddress] VALUES (6, 3)
INSERT [ClientAddress] VALUES (7, 2)
INSERT [ClientAddress] VALUES (8, 4)
INSERT [ClientAddress] VALUES (5, 6)
INSERT [ClientAddress] VALUES (6, 3)
INSERT [ClientAddress] VALUES (7, 5)
INSERT [ClientAddress] VALUES (8, 1)
INSERT [ClientAddress] VALUES (5, 4)
INSERT [ClientAddress] VALUES (6, 6)

;WITH [Stuff] ([ClientID], [Name], [Street], [RowNo]) AS
(
    SELECT
        [C].[ClientID],
        [C].[Name],
        [A].[Street],
        ROW_NUMBER() OVER (ORDER BY [A].[AddressID]) AS [RowNo]
    FROM
        [Client] [C] INNER JOIN
        [ClientAddress] [CA] ON
            [C].[ClientID] = [CA].[ClientID] INNER JOIN
        [Address] [A] ON
            [CA].[AddressID] = [A].[AddressID]
)
SELECT
    [CTE].[ClientID],
    [CTE].[Name],
    [CTE].[Street],
    [CTE].[RowNo]
FROM
    [Stuff] [CTE]
WHERE
    [CTE].[RowNo] IN (SELECT MIN([CTE2].[RowNo]) FROM [Stuff] [CTE2] GROUP BY [CTE2].[ClientID])
ORDER BY
    [CTE].[Name] ASC,
    [CTE].[Street] ASC

DROP TABLE [ClientAddress]
DROP TABLE [Address]
DROP TABLE [Client]

该查询旨在获取所有客户端及其第一个地址(ID最低的地址)。在我看来它应该有效。

我有一个关于为什么它有时不起作用的理论。 CTE之后的陈述是指两个地方的CTE。如果CTE是非确定性的,并且它不止一次运行,那么CTE的结果可能会在它引用的两个地方不同。

在我的示例中,CTE的RowNo列使用带有order by子句的ROW_NUMBER(),当运行多次时可能导致不同的排序(我们按地址排序,客户端可以按任何顺序取决于查询已执行)。

因为这可能CTE和CTE2可能包含不同的结果?或者CTE只执行一次,我是否需要寻找其他问题?

1 个答案:

答案 0 :(得分:5)

不保证任何方式。

SQL Server每次访问时都可以自由评估CTE或缓存结果,具体取决于计划。

您可能想阅读这篇文章:

如果您的CTE不具有确定性,则必须将其结果存储在临时表或表变量中,并使用它而不是CTE

另一方面,

PostgreSQL始终仅评估CTE次,缓存其结果。