Question

有一张表如下：

我只需要检索突出显示的记录。我需要一个查询，它应该适用于存在数百万条记录的更大的表。

标准
共有4组，第1组和第3组具有相似的值，但第2组和第4组具有不同的值

修改
我在表中做了一些修改（添加了ID列）。我们如何通过ID列实现相同的目标？

Answer 1

仅返回此类集合，其中集合中存在1个或多个不同的值

create table #ab
(
col1a int,
colb char(2)
)

insert into #ab
values
(1,'a'),
(1,'a'),
(1,'a'),
(2,'b'),
(2,'c'),
(2,'c')

select id,col1a,colb
from #ab
where col1a in (
Select col1a from #ab group by col1a having count (distinct colb)>1)

关于数百万行的性能，我可能会检查执行计划并处理它。使用我的示例数据集和我的查询，Distinct sort占用了近40％的成本......有数百万行，它可能是转到tempdb也是如此。所以我建议下面的索引可以消除更多的行

create index nci on #ab(colb)
include(col1a)

Answer 2

您也可以使用INNER JOIN代替IN来实现它，因为它是百万行查询。

SELECT f.colA,f.colB
FROM
filtertable f
INNER JOIN
(
SELECT colA
FROM filtertable
GROUP BY colA
HAVING COUNT(DISTINCT colB)>1
) f1
ON f.colA = f1.colA

需要一个SQL语句来过滤行

2 个答案: