标签: algorithm text machine-learning cluster-analysis
我正在检测大约500万个地址列表中的重复项,并且想知道是否就这种目的的高效算法达成了共识。我查看了Gitbub(https://github.com/datamade/dedupe)上的Dedupe库,但根据文档我不清楚这会扩展到大型应用程序。
顺便说一下,我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量的清理工作。我一直在使用Levenshtein距离的原始方法,但是想知道是否有更大的数据集效率。
谢谢,
答案 0 :(得分:2)
重复数据删除应该适用于那么大的数据。
Michael Wick和Beka Steorts的一些优秀作品比重复数据删除具有更好的复杂性。