使用LOAD DATA INFILE或其他解决方案去除数百万行

时间:2013-08-16 14:53:32

标签: mysql sql deduplication

大家好日子。我知道这个话题很多,并为任何冗余道歉,但我需要你MYSQL大师。

我已尝试过几种已在此处发布的解决方案无济于事。解决方案要么花费太长时间和/或更有可能我只是没有知识库来在截止日期完成任务并需要指导。似乎有意义的最常见的答案是使用临时表中的LOAD DATA INFILE,但是我应该分解文件并将其分成块,使用循环脚本吗? 我知道这可以帮助很多新手在这里提供完整的例子和解释,也许可以一劳永逸地为你们提供帮助。我的残桩可能来自使用IGNORE或REPLACE的参数。以下是两个表格:

Table1有2700万行和重复项,基于具有多种疾病的个体,如下所示:

first|last|zip|gender|address|city|state|zip|zip4|birthdate|ailment
-------------------------------------------------------------------
Jay   R    123  M     2 Help  LA   CA    123 123  8/23/86   21
Tom   L    123  M     2 Help  LA   CA    123 123  8/23/86   1

Table2有3百万行和2个空列,但没有内部重复。

first|last|zip|gender|address|city|state|zip|zip4|ailment|birthdate
-------------------------------------------------------------------
Jay   R    123  M     2 Help  LA   CA   123 NULL  NULL     8/23/86

我希望根据第一个,最后一个和邮政编码进行欺骗。如果有帮助的话,我会丢失一些数据来加快处理速度。我非常感谢这种帮助。

0 个答案:

没有答案