新闻文章重复检测

时间:2014-11-14 15:30:25

标签: duplicates nlp duplicate-removal

我想在抓取的网络新闻文章上执行近似重复的识别。 (我想找到相同新闻上的文章并删除它们)我尝试了几种通用方法,如simhash,带状疱疹和基于聚类的方法。但他们没有产生合理的准确度。任何人都可以建议一种方法吗?

0 个答案:

没有答案