在C#中的Lucene中,我试图找出索引是否包含重复文件或几乎相同,以查看是否需要将其替换为新文件。要做到这一点,我想办法可能是使用MoreLikeThis类,然后获取相关文档的列表。然后在比较这些相关文档后,看看它们是否与我添加的文档匹配 - 比如90%匹配。然后,程序将询问用户是否两者是重复的以及保留哪一个。
谢谢!
答案 0 :(得分:0)
用于将文档与lucene进行比较,您还可以使用TermFreqVector并在索引中保存TermVector。您也可以使用此vecotr计算Dirichlet相似度。