应用错误收集

大数据集中检测文本重复的高效算法

时间：2016-07-04 05:29:48

标签： algorithm text machine-learning cluster-analysis

我正在检测大约500万个地址列表中的重复项，并且想知道是否就这种目的的高效算法达成了共识。我查看了Gitbub（https://github.com/datamade/dedupe）上的Dedupe库，但根据文档我不清楚这会扩展到大型应用程序。

顺便说一下，我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量的清理工作。我一直在使用Levenshtein距离的原始方法，但是想知道是否有更大的数据集效率。

谢谢，

1 个答案:

答案 0 :(得分：2)

重复数据删除应该适用于那么大的数据。

Michael Wick和Beka Steorts的一些优秀作品比重复数据删除具有更好的复杂性。