我有一个庞大的公司名单列表以及与这些名称相关的巨大的zipcodes列表。 (大于100,000)。
我必须输出相似的名称(例如,AJAX INC和AJAX是同一家公司,我为编辑距离选择了4个字符的阈值),但前提是它们的相应邮政编码也匹配。
麻烦的是,我可以将所有这些公司名称放在字典中,并将邮政编码列表和其他特征与该字典键相关联。然而,那么我必须匹配每一对,并且与O(n ^ 2),它需要永远。有没有更快的方法呢?
答案 0 :(得分:1)
创建一个由zipcode键入的字典,并将公司名称列表作为值。现在,您只需匹配公司名称每个邮政编码,这是一个小得多的搜索空间。