在Lucene索引中存储间隔

时间:2014-03-21 12:58:18

标签: java lucene full-text-search information-retrieval

我有带注释区域的文档 - 例如,标题',' body'和'评论' (区域也可以嵌套)。 我想寻找一个单词'奥巴马'在'标题'区。我可以在同一位置使用类似word:'Obama' & zone:'title'匹配的SpanQuery,但这意味着我需要为文档中的每个单词位置存储区域属性。我可以将区域存储为区间坐标,然后仅在这些区间内执行查询吗?

1 个答案:

答案 0 :(得分:0)

这看起来很麻烦,但您可以将每个单词的间隔存储为类似于Dewey-Decimal的编码层次结构(请参阅我的Stupid Lucene Tricks: Hierarchies),这样您就可以在层次结构的任何部分中搜索该单词(所有文本,所有标题,标题语义等等。)