匹配范围内excel中的重复行

时间:2013-11-06 03:54:43

标签: excel duplicates excel-formula rows multiple-columns

我们有一个包含120000行数据的大型Excel文件,我们需要找到重复的记录。

第一个记录是要与重复记录列表匹配的主记录。我们需要确认副本是否为真,并突出显示它们。

每条记录都有多行,具体取决于文件中的电子邮件地址数量以及物理地址。

期望的结果是: 1.如果主记录中的名称与重复记录中的名称匹配,则从主记录中找到与重复记录中的任何地址匹配的任何地址,或者将主记录中的电子邮件地址与重复的电子邮件地址匹配。重复的记录。然后在重复列中输入YES以进行任一匹配。

  1. 突出显示颜色中的匹配地址,使用其他颜色突出显示匹配的名称,使用其他颜色突出显示匹配的电子邮件地址。
  2. 可能找到多个重复记录,这显示在A列

    如果名称不匹配,但其他所有内容都匹配,我们仍然要设置NO,这样我们就可以在浏览Excel文档时进行手动检查。

    这是在E列中使用的公式。仅当主记录中的第一个地址在重复记录中具有匹配项时才有效。如果它是主记录中匹配的第二个地址,则它不起作用。

    = IF(OR(C2& B2 = B2,C2& B2 = C2,D2& C2 = D2,D2& C2 = C2,B2 ="地址",C2 ="名称& #34;),"",IF(SUM( - (C 2&安培; B2&安培; D2 = C:C和B:B&安培; d:d))大于1,"是&# 34;," NO&#34))

    您能帮助修复公式并协助突出显示重复项吗?

    A            B                    C                       D                    E                            
    Master   Addresses            Name                   Email address        Duplicate
    255812   1 test rd Sydney     John Doe               john.doe@gmail.com   YES
             1 test rd Sydney                            john.doe@gmail.com 
             PO BOX 2 Sydney            
    
             Addresses            Name                   Email address  
    421504   1 test rd Sydney     John Doe               john.doe@gmail.com   YES
    Duplicate
    records
    found: 1                
    
    Master  Addresses             Name                    Email address 
    455444  1111 House rd Sydney  Steven Jacks            sjacks@gmail.com     NO
            134 Smart St Sydney         
    
            Addresses             Name                    Email address 
    53421   134 Smart St Sydney   Steven Jacks            sjacks@gmail.com     NO
            1111 House rd Sydney                          stephenj@hotmail.com  
            Level 5, Kings St Syd                       
            134 Smart St Sydney         
    
            Addresses              Name                   Email address 
    13232   Level 5, Kings St Syd  Steven R Jacks         stephenj@hotmail.com  NO
    
    Duplicate
    records 
    found: 2
    

1 个答案:

答案 0 :(得分:0)

阐述我对你的问题的评论,这里有一种方法可以“在你继续查找重复项之前对文件进行一些规范化:

保存文件的原始排序顺序(列F - 无公式)

假设没有Master有超过999个附加地址,请计算所有实际数据记录的密钥并保存为值

G2及以下:=IF(ISNUMBER(A2);A2;IF(AND(A2="";AND(B2<>"";B2<>"Addresses");ISNUMBER(G1));G1+0,001;""))

H2和向下:=G2,然后复制/粘贴为值

enter image description here

现在根据您的复制标准(按名称,地址)进行排序

然后添加一个重复查找器公式,例如“如果此行键= prev行键,则此计数器= prev计数器+ 1否则此计数器= 1”,例如

I2及以下:=IF(ISNUMBER(H2);IF(AND(C2<>"";C2=C1;B2=B1);I1+1;1);"")

enter image description here

现在你可以

  • 过滤列I的所有值&gt; 1来识别重复。你只会在悉尼的一个测试中找到John Doe ......
  • 通过KeyValue列上的VLOOKUP将结果反馈到原始表
  • 等...

    并且我们没有考虑不同的拼写,如缩写和&amp;首都,加上白色空间或者交叉点(Rd vs Rd。对道路,道路,1对1.对1., - 名称等中间首字母等,所有这些都是真正的痛苦< / em>用于清理地址文件

您可以针对不同的排序顺序(例如地址+名称)重复上述内容

请记住,在进行任何排序之前,您应该将公式转换为值!

现在......这一切听起来可能相当复杂......因此......如果这不是一次性的,而是反复的练习,我会考虑VBA ......