用于在Lucene中提供搜索查询的索引文件的顺序是什么?

时间:2013-03-10 18:53:09

标签: lucene indexing

当针对Lucene进行搜索查询时,访问的文件(如http://lucene.apache.org/core/old_versioned_docs/versions/3_5_0/fileformats.html中所述)是什么顺序?例如,一旦将查询标记为术语列表,使用什么文件将这些术语转换为命中列表(文档ID)?获得文档ID后,我们如何查找相关文档?

1 个答案:

答案 0 :(得分:1)

典型搜索需要以下文件中的信息:

  1. 术语词典,用于获取有关查询中术语的信息
  2. 频率以获取与查询匹配的文档ID
    • 已删除的docs文件用于跳过已删除的文档
    • 规范文件用于记录文档
    • 如果查询需要处理位置(例如短语查询),那么也将读取位置文件
  3. 存储的字段,以获取热门点击的摘要结果
  4. 术语向量以突出显示存储的字段内容