我想从搜索查询中消除对查询没有任何意义的单词/短语(我们可以将它们称为停止短语)。例如:
“如何......”
“我在哪里可以找到......”
“......是什么意思”
等
在哪里查找/如何计算英语和法语的“常用短语”列表?
如何在Solr中实现它(有没有比停用词更高级的功能?)
答案 0 :(得分:1)
我认为你不应该试图完全摆脱这些短语,因为它们揭示了搜索者的意图。您可以尝试使用像Ephyra这样的自然语言问答系统来利用它们的存在。甚至有project旨在将其与Lucene整合。我自己没有用过它,但至少可以评估一下 值得一试。
如果您决定删除它们,那么我认为您需要编写将过滤查询的自定义QueryParser,将进一步处理委派给您选择的解析器。