Solr中FieldNorm的问题

时间:2016-04-05 10:06:10

标签: search solr lucene similarity

我正在使用Apache Solr进行电影名称搜索。

我已取消tf& idf通过隐藏DefaultSimilarity Lucene类并覆盖tf和idf函数。

我将通过一个例子阐述我的问题。 搜索"蓝色阴影"产生以下结果。

  1. 四十度蓝色
  2. 蓝色阴影
  3. 上述两份文件均获得相同的分数。

    一点点调查指出了lucene在计算分数时使用的FieldNorm。对于上述两个文档,FieldNorm都是相同的。但是,它应该是不同的。

    此外,我观察了以下内容,

    1. 当document_length为1时,fieldNorm为1
    2. 当document_length为2时,fieldNorm为0.625
    3. 当document_length为3时,fieldNorm为0.5
    4. 当document_length为4时,fieldNorm为0.5
    5. 当document_length为5时,fieldNorm为0.4325

      • FieldNorm是如何计算的?
      • 在上述情况下,为什么长度为3&的文件? 4有相同的fieldNorms。
      • 我错过了什么吗?基本上我希望当相同的短语匹配时,具有较少数量的令牌的文档匹配得更高。

0 个答案:

没有答案