将术语频率添加到lucene索引

时间:2011-11-10 06:15:20

标签: java lucene

根据我的理解,Lucene贡献目录中的演示IndexFiles示例将创建从文档术语到相应文档路径名的反向索引。

我想知道是否有办法将每个文档中的术语频率添加到索引中。

换句话说(如果我理解这一点),原始映射: 术语 - > (文件的路径名)列表 术语 - >列表(文档的路径名,该文档中的术语频率)

有没有办法实现这个目标?目前,我通过在java中打开每个文档路径名来计算术语频率,然后计算术语。由于可能有数百个文档需要打开和处理,因此会产生巨大的开销。

1 个答案:

答案 0 :(得分:0)

Lucene通常会存储术语频率,也可以存储术语偏移和位置。频率信息存储在扩展名为“frq”的文件中,因此如果您在索引文件夹中有这个,则存储术语频率。

你没有说出你关心的原因,或者你想对频率做些什么。通常Lucene使用它们来计算查询的相关性分数。如果您想要原始频率,另一个问题将讨论如何检索它们:Get term frequencies in Lucene