我有一个名为emaildata的表,包含4列emailaddress,domainname,data和id。
emailaddress列应仅包含唯一条目,但有许多重复项。域名和数据列不是唯一的,因此将包含重复项,这很好。 id列设置为autoincrement,因此仅包含唯一值。
我的问题是如何摆脱所有具有重复电子邮件地址的行,保留具有最低ID的行?
应该有大约370,000行,但目前我有906,000行。
我有一个SQL语句,在此之前我用过类似的表格,并且我试图将其修改为此而没有成功。
delete T1
from emaildata T1, emaildata T2
where T1.emailaddress = T2.emailaddress
and T1.id > T2.id
以上是基于以下内容,适用于另一张表并且工作正常。
delete T1
from email_list_subscribers T1, email_list_subscribers T2
where T1.emailaddress = T2.emailaddress
and T1.subscriberid > T2.subscriberid
我已经尝试在phpmyadmin的远程服务器上对着我的桌面运行这个,并且在按下GO按钮后,加载栏出现在中间,然后消失,好像它正在处理 - 但它永远不会。
我尝试通过phpmyadmin对我在家庭服务器(XAMPP)上运行的同一个表重复此操作,并再次使用HeidiSQL - 与phpmyadmin和Heidi相同的问题似乎崩溃了。
我已经尝试过我在这里看过的其他解决方案,但我似乎得到了相同的“超时”/崩溃问题。我从来没有遇到过在远程服务器上运行的原始语句的问题,因为这是针对数据库的三分之一。
任何信息都将不胜感激。
答案 0 :(得分:4)
您的查询似乎是正确的。您的问题似乎是性能问题,而不是逻辑问题。您需要确保您的emailaddress
和id
字段在数据库中正确编入索引 - 否则接近一百万行,我希望您的查询会挂起。
(我猜想id
可能已被编入索引,但不是emailaddress
。特别是在表之间进行连接时,如果这些字段中的任何一个未编入索引,那么您将成为看着很多全表扫描。)
编辑:
看到您的评论是这种情况,您可以按照http://dev.mysql.com/doc/refman/5.0/en/create-index.html处的文档来创建索引。如下所示:
CREATE INDEX email_index ON emaildata(emailaddress) USING BTREE;
答案 1 :(得分:0)
从未尝试过查看array_unique(php函数)是否曾修改过密钥,但这是你可以做的...
选择ID和电子邮件并将其存储在数组中,例如id =>电子邮件
使用array_unique获取一个新数组,其中每个重复组的第一个id ...这就是函数的工作方式......以及comapre之后的2个数组并从ur表中删除剩余的id ...
这样你就可以从重复的组和唯一值中得到第一个id