修复唯一标识数据中的拼写错误

时间:2015-06-12 15:17:12

标签: bigdata

我有6,000个项目(只有大约200,000个条目的样本)。唯一标识符是公司名称(不是我选择的)。公司名称中存在拼写错误。我正在使用Levenshtein的距离算法来判断一个公司名称是否与其他公司名称相似90%。如果这是真的,我会组合条目。如果我将每个公司名称条目与每个其他公司名称条目进行比较,我有6,000 ^ 2次迭代。这需要十多分钟。数据条目存储在c ++ std :: map中,其中公司名称是密钥,关联数据是值。关于我如何能够准确地确定两个公司名称是否可能与小拼写错误或缩写相同而没有嵌套for循环的任何想法?

0 个答案:

没有答案