你如何找到Lucene的短语?

时间:2014-08-11 23:55:35

标签: java eclipse lucene morelikethis

我希望我说问题的方式是正确的,尽管我可能会弄错。基本上,我有一个带有术语向量,位置和偏移的索引,我希望能够做到以下几点:当我看到"做"时,检查下一个单词是否是&# 34;你&#34 ;.如果是这样,为了评分的目的,将这两个词视为一个短语。我这样做是为了避免拆分通常一起使用的单词。而不是我按照得分排序的单词列表,

do 
want
you
come
to

我希望看到更像这样的内容

do you
want
come
to

1 个答案:

答案 0 :(得分:1)

一种解决方法是按字词和短语进行索引,因此您的评分列表将是:

do you
want
come
to
do
you

如果您在编制索引期间对短语应用了提升功能,那么您将更接近目标。但这取决于匹配的短语是否应该总是高于他们的单词。

也许值得一看Boosting Lucene Terms When Building the Index