如何将StandardAnalyzer与TermQuery一起使用?

时间:2009-09-07 16:26:24

标签: python lucene pylucene

我正在尝试生成与lucene中的QueryParser类似的东西,但没有解析器,即通过StandardAnalyzer运行字符串,将其标记化并在BooleanQuery中使用TermQuery:s来生成查询。我的问题是我只从StandardAnalyzer获得Token:s而不是Term:s。我可以通过Token.term()从它中提取字符串来将Token转换为一个术语,但这只是2.4.x而且似乎是向后的,因为我需要再次添加该字段。使用StandardAnalyzer生成TermQuery的正确方法是什么?

我正在使用pylucene,但我猜Java的答案是一样的。以下是我提出的代码:

from lucene import *
def term_match(self, phrase):
    query = BooleanQuery()
    sa = StandardAnalyzer()               
    for token in sa.tokenStream("contents", StringReader(phrase)):
        term_query = TermQuery(Term("contents", token.term())
        query.add(term_query), BooleanClause.Occur.SHOULD)

2 个答案:

答案 0 :(得分:2)

获取令牌文本的既定方法是使用token.termText() - 该API一直存在。

是的,您需要为AnalyzerTerm指定字段名称;我认为这被认为是正常的。 8 - )

答案 1 :(得分:0)

我遇到了同样的问题,使用Lucene 2.9 API和Java,我的代码片段如下所示:

final TokenStream tokenStream = new StandardAnalyzer(Version.LUCENE_29)
    .tokenStream( fieldName , new StringReader( value ) );
final List< String > result = new ArrayList< String >();
try {
while ( tokenStream.incrementToken() ) {
  final TermAttribute term = ( TermAttribute ) tokenStream.getAttribute( TermAttribute.class );
  result.add( term.term() );
}