标签: duplicates nlp duplicate-removal
我想在抓取的网络新闻文章上执行近似重复的识别。 (我想找到相同新闻上的文章并删除它们)我尝试了几种通用方法,如simhash,带状疱疹和基于聚类的方法。但他们没有产生合理的准确度。任何人都可以建议一种方法吗?