从Lucene查询中获取查询术语以突出显示

时间:2009-02-16 10:08:22

标签: c# lucene.net highlighting full-text-search

我的Lucene查询通常会存在一堆AND组合字段。 是否可以再次从查询对象中获取查询字段?

1 个答案:

答案 0 :(得分:2)

您的意思是提取术语或字段名称吗?由于您已经知道正在处理BooleanQuery,因此要提取字段,您可以简单地迭代BooleanQuery.getClauses()返回的BooleanClause数组,将每个子句重写为其基本查询(Query.rewrite)并递归应用,直到您拥有TermQuery在你的手上。

如果你的意思是术语提取,我不确定Lucene.NET,但在Java Lucene中你可以使用org.apache.lucene.search.highlight.QueryTermExtractor;你将一个(重写的)查询传递给它的一个getTerms重载并得到一个WeightedTerms数组。

据我记忆,使用这种技术的缺点是:

  • 由于它在内部使用术语集,因此它不会处理同一令牌的多个实例,例如“梦中的梦想”
  • 它仅支持基本查询类型(TermQuery,BooleanQuery和支持Query.extractTerms的任何其他查询类型)。我相信我们已经在内部使用了SpanNearQuery和SpanNearOrderedQuery实例,但我可能错了。

无论哪种方式,我希望这足以让你开始。