我正在 Solr 4. *中索引小长度文档。我有自定义Similarity Class
来计算fieldNorm
。我为fieldNorm
设置了预定义的documents having terms less than 10
。
考虑我在字段 searchinme
中有两个文档Doc 1: Work in RevLeg
Doc 2: Work in RevLeg Project is RevLeg.
现在,当我搜索"working in revleg"
时,我会按顺序搜索。
Top 1: Work in RevLeg Project is RevLeg
Top 2: Work in RevLeg.
我的期望是获得这样的结果
Top 1: Work in RevLeg
Top 2: Work in RevLeg project RevLeg.
我做了一些分析,发现因为在文档2中发现了两次单词RevLeg
而在文档1中发现了一次,然后由于TF越高,Doc 2得分越高。
即使我的Doc 1的FieldNorm得分高于Doc 2 。
我该如何解决这个用例?