应用错误收集

新闻文章重复检测

时间：2014-11-14 15:30:25

标签： duplicates nlp duplicate-removal

我想在抓取的网络新闻文章上执行近似重复的识别。（我想找到相同新闻上的文章并删除它们）我尝试了几种通用方法，如simhash，带状疱疹和基于聚类的方法。但他们没有产生合理的准确度。任何人都可以建议一种方法吗？

0 个答案:

没有答案