T-SQL:删除所有重复的行但保留一行

时间:2011-05-17 01:37:38

标签: sql sql-server tsql

  

可能重复:
  SQL - How can I remove duplicate rows?

我有一个包含大量行的表。不允许重复,但由于行如何创建的问题我知道这个表中有一些重复。 我需要从关键列的角度消除额外的行。其他一些列可能有略微不同的数据但我并不关心。我仍然需要保留其中一行。 SELECT DISTINCT不起作用,因为它对所有列都有效,我需要根据键列来抑制重复。

如何删除额外的行,但仍能有效地保留一行?

3 个答案:

答案 0 :(得分:478)

您没有说明您使用的是哪个版本,但在SQL 2005及更高版本中,您可以使用带有OVER Clause的公用表表达式。它有点像这样:

WITH cte AS (
  SELECT[foo], [bar], 
     row_number() OVER(PARTITION BY foo, bar ORDER BY baz) AS [rn]
  FROM TABLE
)
DELETE cte WHERE [rn] > 1

玩弄它,看看你得到了什么。

(编辑:为了有所帮助,有人编辑了CTE中的ORDER BY子句。要清楚,您可以按照您想要的任何顺序进行排序,它不必是返回的列之一事实上,这里的一个常见用例是“foo,bar”是组标识符,“baz”是某种时间戳。​​为了保持最新状态,你需要ORDER BY baz desc

答案 1 :(得分:100)

示例查询:

DELETE FROM Table
WHERE ID NOT IN
(
SELECT MIN(ID)
FROM Table
GROUP BY Field1, Field2, Field3, ...
)

此处fields是您要对重复行进行分组的列。

答案 2 :(得分:22)

这是我对它的歪曲,有一个可运行的例子。 注意这仅适用于Id唯一且您在其他列中有重复值的情况。

DECLARE @SampleData AS TABLE (Id int, Duplicate varchar(20))

INSERT INTO @SampleData
SELECT 1, 'ABC' UNION ALL
SELECT 2, 'ABC' UNION ALL
SELECT 3, 'LMN' UNION ALL
SELECT 4, 'XYZ' UNION ALL
SELECT 5, 'XYZ'

DELETE FROM @SampleData WHERE Id IN (
    SELECT Id FROM (
        SELECT 
            Id
            ,ROW_NUMBER() OVER (PARTITION BY [Duplicate] ORDER BY Id) AS [ItemNumber]
            -- Change the partition columns to include the ones that make the row distinct
        FROM 
            @SampleData
    ) a WHERE ItemNumber > 1 -- Keep only the first unique item
)

SELECT * FROM @SampleData

结果:

Id          Duplicate
----------- ---------
1           ABC
3           LMN
4           XYZ

不确定为什么这就是我首先想到的......绝对不是最简单的方法,但它有效。