Question

如何删除不存在unique row id的重复行？

我的桌子是

col1  col2 col3 col4 col5 col6 col7
john  1    1    1    1    1    1 
john  1    1    1    1    1    1
sally 2    2    2    2    2    2
sally 2    2    2    2    2    2

我希望在重复删除后留下以下内容：

john  1    1    1    1    1    1
sally 2    2    2    2    2    2

我尝试了一些查询，但我认为它们依赖于行ID，因为我没有得到所需的结果。例如：

DELETE
FROM table
WHERE col1 IN (
    SELECT id
    FROM table
    GROUP BY id
    HAVING (COUNT(col1) > 1)
)

Answer 1

我喜欢CTE和ROW_NUMBER因为这两个组合允许我们查看哪些行被删除（或更新），因此只需将DELETE FROM CTE...更改为SELECT * FROM CTE：

WITH CTE AS(
   SELECT [col1], [col2], [col3], [col4], [col5], [col6], [col7],
       RN = ROW_NUMBER()OVER(PARTITION BY col1 ORDER BY col1)
   FROM dbo.Table1
)
DELETE FROM CTE WHERE RN > 1

DEMO （结果不同;我认为这是由于你的错字）

COL1    COL2    COL3    COL4    COL5    COL6    COL7
john    1        1       1       1       1       1
sally   2        2       2       2       2       2

由于col1，此示例通过单个列PARTITION BY col1确定重复项。如果您想要包含多个列，只需将它们添加到PARTITION BY：

ROW_NUMBER()OVER(PARTITION BY Col1, Col2, ... ORDER BY OrderColumn)

Answer 2

我更喜欢CTE从sql server table中删除重复的行

强烈建议您遵循以下文章:: http://codaffection.com/sql-server-article/delete-duplicate-rows-in-sql-server/

保持原创

WITH CTE AS
(
SELECT *,ROW_NUMBER() OVER (PARTITION BY col1,col2,col3 ORDER BY col1,col2,col3) AS RN
FROM MyTable
)

DELETE FROM CTE WHERE RN<>1

不保留原件

WITH CTE AS
(SELECT *,R=RANK() OVER (ORDER BY col1,col2,col3)
FROM MyTable)
 
DELETE CTE
WHERE R IN (SELECT R FROM CTE GROUP BY R HAVING COUNT(*)>1)

Answer 3

在不使用CTE和ROW_NUMBER()的情况下，您只需使用分组来删除记录MAX函数就是这里的示例

DELETE
FROM MyDuplicateTable
WHERE ID NOT IN
(
SELECT MAX(ID)
FROM MyDuplicateTable
GROUP BY DuplicateColumn1, DuplicateColumn2, DuplicateColumn3)

Answer 4

DELETE from search
where id not in (
   select min(id) from search
   group by url
   having count(*)=1

   union

   SELECT min(id) FROM search
   group by url
   having count(*) > 1
)

Answer 5

Microsoft有一个关于如何删除重复项的详细指南。查看http://support.microsoft.com/kb/139444

简而言之，当您只删除几行时，这是删除重复项的最简单方法：

SET rowcount 1;
DELETE FROM t1 WHERE myprimarykey=1;

myprimarykey 是该行的标识符。

我将 rowcount 设置为1，因为我只有两行是重复的。如果我有3行重复，那么我会将 rowcount 设置为2，这样它就会删除它看到的前两个，只留下表t1中的一个。

希望它可以帮助任何人

Answer 6

请参阅以下删除方式。

Declare @table table
(col1 varchar(10),col2 int,col3 int, col4 int, col5 int, col6 int, col7 int)
Insert into @table values 
('john',1,1,1,1,1,1),
('john',1,1,1,1,1,1),
('sally',2,2,2,2,2,2),
('sally',2,2,2,2,2,2)

创建了一个名为@table的示例表，并使用给定的数据加载它。

Delete  aliasName from (
Select  *,
        ROW_NUMBER() over (Partition by col1,col2,col3,col4,col5,col6,col7 order by col1) as rowNumber
From    @table) aliasName 
Where   rowNumber > 1

Select * from @table

注意：如果您要提供Partition by部分中的所有列，则order by没有太多意义。

我知道，这个问题是在三年前提出来的，而我的回答是蒂姆发布的另一个版本，但是只是发布它对任何人都有帮助。

Answer 7

如果您没有引用，例如外键，则可以执行此操作。在测试概念证明并且测试数据重复时，我做了很多。

SELECT DISTINCT [col1]，[col2]，[col3]，[col4]，[col5]，[col6]，[col7]

INTO [newTable]

进入对象资源管理器并删除旧表。

使用旧表的名称重命名新表。

Answer 8

尝试了以上建议的解决方案后，该方法适用于中小型表。我可以建议针对非常大的表的解决方案。因为它是迭代运行的。

丢弃LargeSourceTable的所有依赖关系视图
您可以使用sql managment studio查找依赖项，右键单击表，然后单击“查看依赖项”
重命名表：
sp_rename 'LargeSourceTable', 'LargeSourceTable_Temp'; GO
再次创建LargeSourceTable，但是现在，添加所有定义重复项的主键，再添加WITH (IGNORE_DUP_KEY = ON)
例如：

CREATE TABLE [dbo].[LargeSourceTable] ( ID int IDENTITY(1,1), [CreateDate] DATETIME CONSTRAINT [DF_LargeSourceTable_CreateDate] DEFAULT (getdate()) NOT NULL, [Column1] CHAR (36) NOT NULL, [Column2] NVARCHAR (100) NOT NULL, [Column3] CHAR (36) NOT NULL, PRIMARY KEY (Column1, Column2) WITH (IGNORE_DUP_KEY = ON) ); GO
再次为新创建的表创建放置在第一位的视图
现在，运行以下sql脚本，您将看到每页1,000,000行的结果，您可以更改每页的行号以更频繁地查看结果。
请注意，我将IDENTITY_INSERT设置为开和关，因为其中一列包含自动增量编号，我也正在复制

SET IDENTITY_INSERT LargeSourceTable ON DECLARE @PageNumber AS INT, @RowspPage AS INT DECLARE @TotalRows AS INT declare @dt varchar(19) SET @PageNumber = 0 SET @RowspPage = 1000000 select @TotalRows = count (*) from LargeSourceTable_TEMP

While ((@PageNumber - 1) * @RowspPage < @TotalRows )
Begin
    begin transaction tran_inner
        ; with cte as
        (
            SELECT * FROM LargeSourceTable_TEMP ORDER BY ID
            OFFSET ((@PageNumber) * @RowspPage) ROWS
            FETCH NEXT @RowspPage ROWS ONLY
        )

        INSERT INTO LargeSourceTable 
        (
             ID                     
            ,[CreateDate]       
            ,[Column1]   
            ,[Column2] 
            ,[Column3]       
        )       
        select 
             ID                     
            ,[CreateDate]       
            ,[Column1]   
            ,[Column2] 
            ,[Column3]       
        from cte

    commit transaction tran_inner

    PRINT 'Page: ' + convert(varchar(10), @PageNumber)
    PRINT 'Transfered: ' + convert(varchar(20), @PageNumber * @RowspPage)
    PRINT 'Of: ' + convert(varchar(20), @TotalRows)

    SELECT @dt = convert(varchar(19), getdate(), 121)
    RAISERROR('Inserted on: %s', 0, 1, @dt) WITH NOWAIT
    SET @PageNumber = @PageNumber + 1
End

SET IDENTITY_INSERT LargeSourceTable OFF

Answer 9

这可能对您有帮助

DELETE t1 FROM table t1 INNER JOIN table t2 WHERE t1.id > t2.id AND t1.col1 = t2.col1

Answer 10

mysql中有两种解决方案：

A）使用 DELETE JOIN 语句

删除重复的行

DELETE t1 FROM contacts t1
INNER JOIN contacts t2 
WHERE 
    t1.id < t2.id AND 
    t1.email = t2.email;

此查询两次引用联系人表，因此，它使用表别名t1和t2。

输出为：

1 查询正常，受影响的4行（0.10秒）

如果您要删除重复的行并保留lowest id，则可以使用以下语句：

DELETE c1 FROM contacts c1
INNER JOIN contacts c2 
WHERE
    c1.id > c2.id AND 
    c1.email = c2.email;

B）使用中间表删除重复的行

以下显示了使用中间表删除重复行的步骤：

1.创建一个新表，其结构与要删除重复行的原始表相同。

Â2.从原始表到直接表中插入不同的行。

3.从原始表到直接表中插入不同的行。

步骤1.创建一个新表，该表的结构与原始表相同：

CREATE TABLE source_copy LIKE source;

步骤2。将原始表中的不同行插入到新表中：

INSERT INTO source_copy
SELECT * FROM source
GROUP BY col; -- column that has duplicate values

步骤3.删除原始表，并将立即表重命名为原始表

DROP TABLE source;
ALTER TABLE source_copy RENAME TO source;

来源：http://www.mysqltutorial.org/mysql-delete-duplicate-rows/

Answer 11

-- this query will keep only one instance of a duplicate record.
;WITH cte
     AS (SELECT ROW_NUMBER() OVER (PARTITION BY col1, col2, col3-- based on what? --can be multiple columns
                                       ORDER BY ( SELECT 0)) RN
         FROM   Mytable)



delete  FROM cte
WHERE  RN > 1

Answer 12

With reference to https://support.microsoft.com/en-us/help/139444/how-to-remove-duplicate-rows-from-a-table-in-sql-server

删除重复的想法涉及

a）保护那些不重复的行
b）保留合并为重复的许多行中的一行。

步骤一步

1）首先确定满足重复定义的行并将它们插入到临时表中，比如#tableAll。
2）在临时表中选择非重复（单行）或不同的行说#tableUnique。
3）从源表中删除加入#tableAll删除重复。
4）将#tableUnique。
5）删除#tableAll和#tableUnique

Answer 13

如果您能够临时向表中添加列，这是一个对我有用的解决方案：

ALTER TABLE dbo.DUPPEDTABLE ADD RowID INT NOT NULL IDENTITY(1,1)

然后使用MIN和GROUP BY

的组合执行DELETE

DELETE b
FROM dbo.DUPPEDTABLE b
WHERE b.RowID NOT IN (
                     SELECT MIN(RowID) AS RowID
                     FROM dbo.DUPPEDTABLE a WITH (NOLOCK)
                     GROUP BY a.ITEM_NUMBER,
                              a.CHARACTERISTIC,
                              a.INTVALUE,
                              a.FLOATVALUE,
                              a.STRINGVALUE
                 );

验证DELETE是否正确执行：

SELECT a.ITEM_NUMBER,
    a.CHARACTERISTIC,
    a.INTVALUE,
    a.FLOATVALUE,
    a.STRINGVALUE, COUNT(*)--MIN(RowID) AS RowID
FROM dbo.DUPPEDTABLE a WITH (NOLOCK)
GROUP BY a.ITEM_NUMBER,
    a.CHARACTERISTIC,
    a.INTVALUE,
    a.FLOATVALUE,
    a.STRINGVALUE
ORDER BY COUNT(*) DESC

结果应该没有计数大于1的行。最后，删除rowid列：

ALTER TABLE dbo.DUPPEDTABLE DROP COLUMN RowID;

Answer 14

with myCTE
as

(
select productName,ROW_NUMBER() over(PARTITION BY productName order by slno) as Duplicate from productDetails
)
Delete from myCTE where Duplicate>1

Answer 15

您需要根据字段将重复记录分组，然后保留其中一条记录并删除其余记录。例如：

DELETE prg.Person WHERE Id IN (
SELECT dublicateRow.Id FROM
(
select MIN(Id) MinId, NationalCode
 from  prg.Person group by NationalCode  having count(NationalCode ) > 1
 ) GroupSelect
 JOIN  prg.Person dublicateRow ON dublicateRow.NationalCode = GroupSelect.NationalCode 
 WHERE dublicateRow.Id <> GroupSelect.MinId)

Answer 16

尝试使用：

SELECT linkorder
    ,Row_Number() OVER (
        PARTITION BY linkorder ORDER BY linkorder DESC
        ) AS RowNum
FROM u_links

Answer 17

从巨大的（几百万条记录）表中删除重复项可能需要很长时间。我建议您对所选行的临时表进行批量插入，而不要删除。

--REWRITING YOUR CODE(TAKE NOTE OF THE 3RD LINE) WITH CTE AS(SELECT NAME,ROW_NUMBER() 
OVER (PARTITION BY NAME ORDER BY NAME) ID FROM @TB) SELECT * INTO #unique_records FROM 
CTE WHERE ID =1;

Answer 18

哦，哇，我准备好所有这些答案都太傻了，它们就像专家对所有CTE和临时表等的答案一样。

我要做的只是通过使用MAX汇总ID列。

DELETE FROM table WHERE col1 IN (
    SELECT MAX(id) FROM table GROUP BY id HAVING ( COUNT(col1) > 1 )
)

注意：您可能需要多次运行才能删除重复项，因为这一次只会删除一组重复行。

Answer 19

     SELECT DISTINCT * FROM TABLE;

这将删除所有重复的行，并仅为您提供不同的值（行）。

Answer 20

在sql server中可以通过多种方式完成最简单的方法是：将重复行表中的不同行插入到新的临时表中。然后从重复行表中删除所有数据，然后从临时表中插入所有没有重复项的数据，如下所示。

select distinct * into #tmp From table
   delete from table
   insert into table
   select * from #tmp drop table #tmp

   select * from table

使用通用表表达式（CTE）删除重复的行

With CTE_Duplicates as

（选择id，name，row_number（）超过（按id划分，按id，name命名顺序）行号从表）从CTE_Duplicates中删除，其中rownumber！= 1

Answer 21

return userCreationResult
   .flatMap(user -> { //replace map with flatMap
        userRepository.save(user.toDto());
        final UUID uuid = verificationTokenRepository.generateVerificationToken(user.getUsername());
        return emailFacade.sendUserVerificationEmail(uuid, user.getUsername());
});

Answer 22

File > Invalidate Caches/Restart

Answer 23

应该与其他SQL服务器（例如Postgres）一样工作：

DELETE FROM table
WHERE id NOT IN (
   select min(id) from table
   group by col1, col2, col3, col4, col5, col6, col7
)

Answer 24

在一步中删除重复行而不丢失信息的另一种方法如下：

delete from dublicated_table t1 (nolock)
join (
    select t2.dublicated_field
    , min(len(t2.field_kept)) as min_field_kept
    from dublicated_table t2 (nolock)
    group by t2.dublicated_field having COUNT(*)>1
) t3 
on t1.dublicated_field=t3.dublicated_field 
    and len(t1.field_kept)=t3.min_field_kept

Answer 25

如果您可以找到重复行的数量，例如您有n个重复行，则使用此命令

SET rowcount n-1
DELETE FROM your_table
WHERE (spacial condition)

了解更多信息我建议this

如何删除SQL Server中的重复行？

25 个答案: