使用Lucene查找带有长查询短语的较短索引文本?

时间:2011-12-07 19:19:59

标签: lucene lucene.net

我正在使用Lucene作为尽力匹配,从用户输入映射到以前输入的长列表进行分类 - 到目前为止,这种情况非常有用。

有问题的例子:

指数:

  • 福特
  • 梅赛德斯
  • 本田
  • 我非常喜欢丰田

输入:

  • 福特(完全匹配:效果很好)
  • toyota(在较长的索引条目中部分匹配:效果很好)
  • 我以前有一个奔驰但现在我不会(包含短精确匹配的较长文本:通常会给出一个完全不相关的长期模糊匹配 - 或者什么都没有)

我想我正在寻找的是找到最长的常见子序列,以防它不是前两种情况之一 - 但话说回来,我对Lucene来说相对较新,所以也许我只是不知道足够的搜索-lingo正确解释。

1 个答案:

答案 0 :(得分:1)

您可能需要的是 n-gramm相似性

请参阅NGramDistance课程

修改维基百科链接http://en.wikipedia.org/wiki/Approximate_string_matching