用于大规模近似重复检测文档的最先进方法?

时间:2017-06-04 14:13:14

标签: machine-learning nlp

据我了解,NLP中的科学共识是在大型科学文献集(超过10亿份文件)中进行近似重复检测的最有效方法是:

http://infolab.stanford.edu/~ullman/mmds/ch3.pdf

可以简要描述:

a)文件的乱七八糟 b)缩小以获得带状疱疹的最小签名 c)局部敏感散列,以避免对所有签名进行成对相似性计算,而只关注桶内的对。

我准备在Map-Reduce或Spark中实现这个算法,但是因为我是该领域的新手(我已经阅读了大约两周的大规模近似重复检测)并且上面发表了相当的几年前,我想知道上述算法是否存在已知的局限性以及是否存在更有效的不同方法(提供更具吸引力的性能/复杂性权衡)。

提前致谢!

1 个答案:

答案 0 :(得分:1)

关于第二步骤b),最近的发展显着加快了签名的计算: