大数据集中检测文本重复的高效算法

时间:2016-07-04 05:29:48

标签: algorithm text machine-learning cluster-analysis

我正在检测大约500万个地址列表中的重复项,并且想知道是否就这种目的的高效算法达成了共识。我查看了Gitbub(https://github.com/datamade/dedupe)上的Dedupe库,但根据文档我不清楚这会扩展到大型应用程序。

顺便说一下,我只是想根据文本相似性来定义重复项 - 已经对地址进行了大量的清理工作。我一直在使用Levenshtein距离的原始方法,但是想知道是否有更大的数据集效率。

谢谢,

1 个答案:

答案 0 :(得分:2)

重复数据删除应该适用于那么大的数据。

Michael WickBeka Steorts的一些优秀作品比重复数据删除具有更好的复杂性。