Lucene中两个文件之间的区别

时间:2012-02-08 02:37:07

标签: c# lucene indexing lucene.net

在C#中的Lucene中,我试图找出索引是否包含重复文件或几乎相同,以查看是否需要将其替换为新文件。要做到这一点,我想办法可能是使用MoreLikeThis类,然后获取相关文档的列表。然后在比较这些相关文档后,看看它们是否与我添加的文档匹配 - 比如90%匹配。然后,程序将询问用户是否两者是重复的以及保留哪一个。

  1. 这可以用Lucene完成吗? ......这是最好的办法吗?
  2. 如果无法做到这一点,请使用Levenshtein Distance Algorithm比较两个文件的最有效方法,看看它们是否有类似匹配?
  3. 谢谢!

1 个答案:

答案 0 :(得分:0)

用于将文档与lucene进行比较,您还可以使用TermFreqVector并在索引中保存TermVector。您也可以使用此vecotr计算Dirichlet相似度。