我的数据中有两列:
A
- 每家公司的唯一ID。B
- 与相应ID对应的公司名称。此类数据扩展到13,000行。例如:
Col A Col B
12 Google Inc
12 The Google
14 Google
18 Amazon
18 Amazon
21 Amazon INC
18 Amazon
...
从上面的示例中可以看出,问题是公司有时会出现不同的ID。此外,虽然在所有3个案例中,公司仍然是相同的,但他们措辞不同的事实使得很难做到完全匹配。
我在这个练习中的目标是双重的:
遍历所有13,000行会很麻烦。什么Excel公式可以做到这一点?
答案 0 :(得分:0)
您可以使用数据透视表来计算每个名称的重复数量。
我也会:
按B列排序。 在列c中添加一个公式,用于将公式行与上一行进行比较。
例如,考虑第5行中的公式:
=IF(B4=B5,"Identical","Different")
您可以构建更多智能,例如比较第5行中名称中的第一个单词,看它是否在第4行名称中。例如
=IF( iserror( find( LEFT(B5,FIND(" ",B5,1)-1) ,B4,1) )
,""
,"Similar")
您可以将上述两个功能组合成一个功能,或者可以在不同的列中使用它们(这更容易)
第2部分:
数据必须按B列排序!
因此,使用上述逻辑比较ID,您应该使用此公式添加另一列(F列)
= find( LEFT(B5,FIND(" ",B5,1)-1) ,B4,1)
然后添加另一列(G列)
=IF(B4=B5
, B5
, IF( iserror(F5) )
,""
, F5 )
)
这会在G列中产生一个值,该值是相同的公司名称或具有匹配名称的公司的第一个单词。
然后,您可以添加另一列(列H),用于比较具有相同ID的行的ID
=IF(F4=F5
, IF(A4<>A5, "Different IDS, "Ok IDs")
, "First row in company group"
)