lucene / solr删除常用短语(停止短语)

时间:2011-08-16 11:57:36

标签: lucene solr full-text-search

我想从搜索查询中消除对查询没有任何意义的单词/短语(我们可以将它们称为停止短语)。例如:

“如何......”

“我在哪里可以找到......”

“......是什么意思”

  1. 在哪里查找/如何计算英语和法语的“常用短语”列表?

  2. 如何在Solr中实现它(有没有比停用词更高级的功能?)

1 个答案:

答案 0 :(得分:1)

我认为你不应该试图完全摆脱这些短语,因为它们揭示了搜索者的意图。您可以尝试使用像Ephyra这样的自然语言问答系统来利用它们的存在。甚至有project旨在将其与Lucene整合。我自己没有用过它,但至少可以评估一下 值得一试。

如果您决定删除它们,那么我认为您需要编写将过滤查询的自定义QueryParser,将进一步处理委派给您选择的解析器。