修改Lucene索引中的.tim和.tip文件

时间:2014-06-25 15:29:10

标签: java lucene

我有一个带有多个索引的Lucene应用程序,其中相关性评分因不同索引中术语频率的差异而受到影响。我的理解是术语词典(.tim文件)包含“术语统计”,例如每个术语的文档频率统计。我在想一种方法可能是修改每个索引(和相关段)的.tim文件并更新“术语统计”。是否有可能以这种方式覆盖或修改.tim和.tip文件?

2 个答案:

答案 0 :(得分:1)

  

相关性评分受损

来自FAQ

  

得分值仅用于比较之间的有意义   完全相同的查询和完全相同的索引的其他文档。   当您尝试计算百分比时,您正在设置隐式   与其他查询的得分进行比较。

答案 1 :(得分:0)

有可能吗?我想,但是通过直接修改已编译的二进制文件来尝试更改应用程序,这对我来说是个好主意。

如果您需要非常具体的评分,那么您通常应该实施一个Similarity来满足您的需求。扩展TFIDFSimilarity通常是一个好主意。真的不清楚确切的问题是什么,所以我无法提供比这更具体的指导,但也许这为正确的总体方向提供了一点。