我有一个带有多个索引的Lucene应用程序,其中相关性评分因不同索引中术语频率的差异而受到影响。我的理解是术语词典(.tim文件)包含“术语统计”,例如每个术语的文档频率统计。我在想一种方法可能是修改每个索引(和相关段)的.tim文件并更新“术语统计”。是否有可能以这种方式覆盖或修改.tim和.tip文件?
答案 0 :(得分:1)
答案 1 :(得分:0)
有可能吗?我想,但是通过直接修改已编译的二进制文件来尝试更改应用程序,这对我来说是个好主意。
如果您需要非常具体的评分,那么您通常应该实施一个Similarity来满足您的需求。扩展TFIDFSimilarity通常是一个好主意。真的不清楚确切的问题是什么,所以我无法提供比这更具体的指导,但也许这为正确的总体方向提供了一点。