标签: string-comparison bulk article plagiarism-detection
我有20,000份主文章,我每天会收到大约400,000篇一两页的文章。现在,我试图看看这400k文章中的每一篇是否都是我的主文章集的复制或修改版本(对我来说,剽窃60%以上的门槛是好的) 我应该使用哪些算法和技术以非常有效和及时的方式解决问题。 感谢
答案 0 :(得分:1)
指纹文章(即基于词频智能地对它们进行哈希),然后寻找指纹之间的统计连接。然后,如果对某些数据集有预感,请强行搜索相应的字符串。