Levenshtein在大量数据方面表现出色

时间:2014-09-15 12:42:33

标签: sql excel excel-formula levenshtein-distance

我试图使用Levenstein algo I found here来清理大量数据。但是无法实现它。

我有100,000行excel数据。

其中一列包含城市名称,这些列有多个拼写错误(因此为levenstein)

我列出了全球1,000,000个城市。我正在尝试找到查询两组数据的最佳方法,并为每个实例返回城市的正确拼写。

目前我有= IF(Levenshtein(J5,$ K $ 4)< 4,$ K $ 4," No Match")

但是,我需要分别为我的100万个城市中的每个城市重复这一过程。

我理想的解决方案是添加另一列,插入公式并最终得到该城市名称的正确拼写。

1 个答案:

答案 0 :(得分:0)

这个“Excel的模糊查找加载项”应该可以解决问题:)

http://www.microsoft.com/en-gb/download/details.aspx?id=15011