Question

用于循环 17百万条记录以删除重复项的查询现已运行约 16小时，我想知道查询是否已停止正确现在，如果它将完成删除语句或在运行此查询时是否已删除？实际上，如果我确实停止它，它是否最终确定删除或回滚？

我发现当我做

时

 select count(*) from myTable

它返回的行（在执行此查询时）比起始行计数少约5。显然服务器资源非常差，所以这意味着这个过程需要16个小时才能找到5个重复项（实际上有数千个），这可能会运行几天？

这个查询在2000行测试数据上耗时6秒，并且在这组数据上效果很好，所以我认为整套需要15个小时。

有什么想法吗？

以下是查询：

--Declare the looping variable
DECLARE @LoopVar char(10)


    DECLARE
     --Set private variables that will be used throughout
      @long DECIMAL,
      @lat DECIMAL,
      @phoneNumber char(10),
      @businessname varchar(64),
      @winner char(10)

    SET @LoopVar = (SELECT MIN(RecordID) FROM MyTable)

    WHILE @LoopVar is not null
    BEGIN

      --initialize the private variables (essentially this is a .ctor)
      SELECT 
        @long = null,
        @lat = null,
        @businessname = null,
        @phoneNumber = null,
        @winner = null

      -- load data from the row declared when setting @LoopVar  
      SELECT
        @long = longitude,
        @lat = latitude,
        @businessname = BusinessName,
        @phoneNumber = Phone
      FROM MyTable
      WHERE RecordID = @LoopVar

      --find the winning row with that data. The winning row means 
      SELECT top 1 @Winner = RecordID
      FROM MyTable
      WHERE @long = longitude
        AND @lat = latitude
        AND @businessname = BusinessName
        AND @phoneNumber = Phone
      ORDER BY
        CASE WHEN webAddress is not null THEN 1 ELSE 2 END,
        CASE WHEN caption1 is not null THEN 1 ELSE 2 END,
        CASE WHEN caption2 is not null THEN 1 ELSE 2 END,
        RecordID

      --delete any losers.
      DELETE FROM MyTable
      WHERE @long = longitude
        AND @lat = latitude
        AND @businessname = BusinessName
        AND @phoneNumber = Phone
        AND @winner != RecordID

      -- prep the next loop value to go ahead and perform the next duplicate query.
      SET @LoopVar = (SELECT MIN(RecordID) 
    FROM MyTable
    WHERE @LoopVar < RecordID)
    END

Answer 1

不，如果停止查询执行，sql server将不会回滚它已经执行的删除。 oracle需要显式提交操作查询或者数据被回滚，但不是mssql。

使用sql server它将不会回滚，除非您在事务的上下文中专门运行并回滚该事务，或者在没有提交事务的情况下关闭连接。但我在上面的查询中没有看到交易上下文。

您还可以尝试重新构建查询以使删除效率更高一些，但基本上如果您的框的规格不符合要求，那么您可能会被迫等待它。

今后，您应该在桌面上创建一个唯一索引，以避免再次经历这个问题。

Answer 2

您的查询未包含在事务中，因此它不会回滚各个删除语句已经发生的更改。

我使用以下查询在我自己的SQL Server上自行测试了这个，并且即使我取消了查询，ApplicationLog表也是空的：

declare @count int
select @count = 5
WHILE @count > 0
BEGIN
  print @count
  delete from applicationlog;
  waitfor time '20:00';
  select @count = @count -1
END

但是，您的查询可能需要数天或数周，比15小时更长。您估计每6秒处理2000条记录的错误是错误的，因为while循环中的每次迭代将花费1700万行显着更长的时间，而2000条行则需要更长的时间。因此，除非您的查询在2000行中花费的时间少于一秒，否则所有1700万行都需要几天。

您应该问一个关于如何有效删除重复行的新问题。

Answer 3

如果您没有对事务做任何明确的事情，那么连接将处于autocommit transactions模式。在此模式下，每个SQL语句都被视为事务。

问题在于这是否意味着单个SQL语句是事务，因此在您执行时提交，或者外部WHILE循环是否算作事务。

在MSDN上的WHILE构造的描述中似乎没有对此进行任何讨论。但是，由于WHILE语句不能直接修改数据库，因此不启动自动提交事务似乎是合乎逻辑的。

Answer 4

隐含交易

如果未设置“隐式事务”，则循环中的每次迭代都会提交更改。

可以使用“隐式事务”设置任何SQL Server。这是一个数据库设置（默认为OFF）。您还可以在Management Studio内的特定查询的属性中进行隐式事务（在查询窗格中单击右键＆gt;选项），在客户端中使用默认设置或SET语句。

SET IMPLICIT_TRANSACTIONS ON;

无论哪种方式，如果是这种情况，无论查询执行中断如何，您仍然需要执行显式的COMMIT / ROLLBACK。

隐式交易参考：

http://msdn.microsoft.com/en-us/library/ms188317.aspx

http://msdn.microsoft.com/en-us/library/ms190230.aspx

Answer 5

我继承了一个系统，它的逻辑与你在SQL中实现的一样。在我们的例子中，我们试图使用具有相似名称/地址等的模糊匹配将行链接在一起，并且该逻辑完全在SQL中完成。在我继承它的时候，我们在表格中有大约300,000行，根据时间计算，我们计算出它需要A YEAR来匹配它们。

作为一个实验，看看我能在SQL之外做多快，我写了一个程序将db表转储成平面文件，将平面文件读入C ++程序，构建我自己的索引，并做模糊那里的逻辑，然后将平面文件重新导入数据库。在C ++应用程序中花了大约30秒的时间在SQL中花了大约30秒。

所以，我的建议是，甚至不要尝试在SQL中做什么。导出，处理，重新导入。

Answer 6

到目前为止执行的DELETES将不会回滚。

作为code in question的原作者，并且已发出警告表明性能取决于索引，我建议以下项目来加快速度。

RecordId最好是PRIMARY KEY。我不是指IDENTITY，我的意思是PRIMARY KEY。使用sp_help

确认

在评估此查询时应使用某些索引。弄清楚这四列中的哪一列具有最少的重复和索引......

SELECT *
FROM MyTable
WHERE @long = longitude
  AND @lat = latitude
  AND @businessname = BusinessName
  AND @phoneNumber = Phone

添加此索引之前和之后，请检查查询计划以查看是否已添加索引扫描。

Answer 7

作为一个循环，即使使用适当的索引，您的查询也难以很好地扩展。根据{{3}}中的建议，应该将查询重写为单个语句。

如果您没有在事务中显式运行它，它将只回滚执行语句。

Answer 8

我认为如果使用游标使用单遍算法重写它，这个查询会更有效率。您可以按经度，纬度，BusinessName和@phoneNumber命令光标表。你可以逐步浏览一行。如果一行具有与上一行相同的经度，纬度，商家名和电话号码，则将其删除。

Answer 9

我认为你需要认真考虑你的方法论。你需要开始思考集合（虽然为了性能你可能需要批处理，但不是逐行对1700万记录表。）

首先，你的所有记录都有重复吗？我怀疑没有，所以你要做的第一件事就是将处理限制在只有那些有重复的记录上。由于这是一个大表，您可能需要随着时间的推移批量删除，具体取决于正在进行的其他处理，您首先将要处理的记录拉到自己的索引表中。你也可以使用一个临时表，如果你能够同时完成这一切而不停止它，那么在数据库中创建一个表并在最后删除。

类似的东西（注意我没有写下创建索引的声明，我想你可以自己看一下）：

SELECT min(m.RecordID), m.longitude, m.latitude, m.businessname, m.phone  
     into  #RecordsToKeep    
FROM MyTable   m
join 
(select longitude, latitude, businessname, phone
from MyTable
group by longitude, latitude, businessname, phone
having count(*) >1) a 
on a.longitude = m.longitude and a.latitude = m.latitude and
a.businessname = b.businessname and a.phone = b.phone 
group by  m.longitude, m.latitude, m.businessname, m.phone   
ORDER BY CASE WHEN m.webAddress is not null THEN 1 ELSE 2 END,        
    CASE WHEN m.caption1 is not null THEN 1 ELSE 2 END,        
    CASE WHEN m.caption2 is not null THEN 1 ELSE 2 END



while (select count(*) from #RecordsToKeep) > 0
begin
select top 1000 * 
into #Batch
from #RecordsToKeep

Delete m
from mytable m
join #Batch b 
        on b.longitude = m.longitude and b.latitude = m.latitude and
        b.businessname = b.businessname and b.phone = b.phone 
where r.recordid <> b.recordID

Delete r
from  #RecordsToKeep r
join #Batch b on r.recordid = b.recordid

end

Delete m
from mytable m
join #RecordsToKeep r 
        on r.longitude = m.longitude and r.latitude = m.latitude and
        r.businessname = b.businessname and r.phone = b.phone 
where r.recordid <> m.recordID

Answer 10

还尝试考虑另一种删除重复行的方法：

delete t1 from table1 as t1 where exists (
    select * from table1 as t2 where
        t1.column1=t2.column1 and
        t1.column2=t2.column2 and
        t1.column3=t2.column3 and
        --add other colums if any
        t1.id>t2.id
)

我想你的表中有一个整数id列。

Answer 11

如果您的计算机没有非常高级的硬件，则可能需要很长时间才能完成该命令。我不确定这项操作是如何在幕后执行的，但根据我的经验，这可以通过将记录从数据库中带入内存以获得更高效的程序，使用具有删除重复规则的树结构的程序用于插入。尝试使用ODBC将chuncks中的整个表（一次说10000行）读入C ++程序。一旦进入C ++程序，使用和std :: map其中key是唯一键，struct是一个结构，用于将其余数据保存在变量中。循环遍历所有记录并执行插入到地图中。地图插入功能将处理删除重复项。由于在地图内搜索是lg（n）时间，因此找到重复项的时间远远少于使用while循环。然后，您可以删除整个表，并通过形成插入查询并通过odbc执行它们或构建文本文件脚本并在管理工作室中运行它，从地图中将元组添加回数据库。

Answer 12

我很确定这是一种否定的。否则交易点会是什么？

如果我停止长时间运行的查询，它会回滚吗？

12 个答案:

隐含交易