如何使用2000万行的数据集删除MySQL中的重复项?

时间:2014-04-02 12:42:40

标签: mysql sql

我有大型MySQL数据库。我需要快速删除重复的项目。这是它的外观:

id | text1 | text2|    
1  | 23    |  43  |   
2  | 23    |  44  |  
3  | 23    |  44  |

删除后,表格的剩余部分应为:

id | text1 | text2|   
1  | 23    |  43  |   
3  | 23    |  44  |

我不在乎身份。最重要的是没有重复的项目会消失。

3 个答案:

答案 0 :(得分:4)

你可以试试这个:

ALTER IGNORE TABLE my_tablename ADD UNIQUE INDEX idx_name (text1 , text2);

即尝试将UNIQUE INDEX添加到您的列中,并alter添加表

这具有优势,以后也不会有任何可以在表格中插入的重复行

答案 1 :(得分:1)

DELETE FROM t WHERE id NOT IN
(SELECT MIN(id) FROM t GROUP BY text1, text2)

答案 2 :(得分:0)

运行:

SELECT COUNT(*), text1, text2
GROUP BY text1, text2
HAVING COUNT(*) > 1;

在此处找到行时,请为每个匹配删除一行,然后再次运行。

我不确定在性能方面会是什么样的 - 如果您离线执行此操作也许并不重要?