Question

如果文档已编入索引，则在搜索时我必须将该文档分成两部分：第一部分由前100个单词（标记）组成，文档的其余部分表示第二部分。我必须对这两部分进行评分：第二部分，70％，第一部分，30％。

编辑2：所以我尝试创建一个使用SpanPositionRangeQuery的搜索器，但我必须完全理解SpanQuery使用错误，因为我无法获得任何命中（我使用lukeall来验证我是否正在搜索被索引）。有人可以帮我一把吗？

public static void search(String indexDir, String q) throws Exception
{

    Directory dir = FSDirectory.open(new File(indexDir), null);
    IndexSearcher is = new IndexSearcher(dir);

    Term term = new Term("Field", q);
    SpanPositionRangeQuery spanQuery = new SpanPositionRangeQuery(new SpanTermQuery(term), 0, 100);
    spanQuery.setBoost(0.3f);CustomRomanianAnalyzer(Version.LUCENE_35));

    long start = System.currentTimeMillis();
    TopDocs hits = is.search(spanQuery, 10);
    //TopDocs hits = is.search(query, 10);
    long end = System.currentTimeMillis();

    System.err.println("I found " + hits.totalHits + " documents (in " +
            (end - start) + " milliseconds) '" +
            q + "':");

    for (int i=0;i<hits.scoreDocs.length;i++)
    {
        ScoreDoc scoreDoc = hits.scoreDocs[i];
        Document doc = is.doc(scoreDoc.doc);
        System.out.println(doc.get("filename"));
    }

    is.close();
}

我不知道如何将查询解析器与SpanPositionRangeQuery结合起来以获得我需要的东西......

Answer 1

是的，这可以通过在BooleanQuery中为每个子句设置boost来完成。使用单独的字段将起作用，但并非绝对必要。 Lucene有一个SpanPositionRangeQuery适合搜索文档的一部分。

<SpanPositionRangeQuery: spanPosRange(field:term, 0, 100)^0.3>

lucene定制得分

1 个答案: