我想知道解决问题的最佳方法,我需要找到两个文档之间的相似性,这两个文档的内容相同的信息以不同的方式阐述和说明。
示例:多个新闻来源以不同的方式报告相同的新闻,我需要删除所有类似的内容,并且只保留一篇文章,换言之,文章的重复数据删除
如果已经收到类似内容的文章我们需要避免此类文章,也会保留文章的历史记录
在上述场景中如何识别文章相似度。
我一直在阅读有关评分算法的内容,在我看来,余弦相似性做得更好,但是当要比较的文本变得更大时,复杂性变得更高O(m + n)给定一个文档包含m长文本和其他给出n长度文本
在历史中检索文档会增加它将使这成为一种不切实际的解决方案
lucene似乎是不错的选择,但我没有特权将其纳入我的解决方案我需要实现基于纯Java的解决方案