使用编辑距离消除名称歧义

时间:2013-08-02 18:02:58

标签: python levenshtein-distance

我有一个庞大的公司名单列表以及与这些名称相关的巨大的zipcodes列表。 (大于100,000)。

我必须输出相似的名称(例如,AJAX INC和AJAX是同一家公司,我为编辑距离选择了4个字符的阈值),但前提是它们的相应邮政编码也匹配。

麻烦的是,我可以将所有这些公司名称放在字典中,并将邮政编码列表和其他特征与该字典键相关联。然而,那么我必须匹配每一对,并且与O(n ^ 2),它需要永远。有没有更快的方法呢?

1 个答案:

答案 0 :(得分:1)

创建一个由zipcode键入的字典,并将公司名称列表作为值。现在,您只需匹配公司名称​​每个邮政编码,这是一个小得多的搜索空间。