Lucene中模糊参数的意义

时间:2010-11-10 15:58:29

标签: lucene

the Lucene documentation中所述,有一个参数可用于指定匹配所需的相似性。值在0和1之间,值接近1,只有具有较高相似度的项匹配。例如:漫游~0.8

知道我想知道这个参数是否意味着相对意义,即对于更长的字符串,字符串编辑距离可能更高并且仍然匹配。或者,这是一个绝对值,即只允许多达x次替换/删除/插入才能进行匹配?

1 个答案:

答案 0 :(得分:4)

搜索term~sim会找到编辑距离小于length(term) * (1- sim)的所有字词。因此,roam~0.8会找到编辑距离小于4 *(1-.8)= .8的漫游内容。

编辑:

该术语必须长于1 /(1 - sim)。所以搜索roam~.8不会模糊,因为相似度为.8的事物的长度必须至少为5。