Lucene 3.0.3 - 模糊搜索相似性如何与更高版本的编辑距离相关联? (例如4.x)

时间:2016-04-06 13:13:45

标签: lucene lucene.net

在版本4.x之前,您可以使用0.1到1.0之间的浮点数设置模糊搜索的相似度。 更高版本使用0到2之间的值作为编辑距离。

这些值如何相关?我在文档中找不到实际浮动范围从0.1到1.0的含义。

我正在使用lucene.net 3.0.3

1 个答案:

答案 0 :(得分:3)

版本4.0以后只使用Damerau-Levenshtein edit distance

3.0.3版将编辑距离与术语长度进行比较。如果length(term) * minSimilarity >= edit distance(其中minSimilarity是您所指的浮点参数),则该术语被视为匹配。

因此,如果将其设置为0.5,则长度为4的术语可以具有最多2的编辑距离,而长度为6的术语可以具有3的距离并且仍然是匹配。