我正在研究Okapi BMS25型号。我理解一切,但两个混乱。在计算文档长度(dl)和平均文档长度(avdl)时。我发现文件长度是
因此,它是特定文档中我的关键字/术语的总和。但是当我看到维基的def:
所以| D |是文字D的长度(即总字数的总和)。 现在,问题究竟是什么dl?
现在,第二个问题如何计算avdl? (只是计算(doc1 + doc2 + ... N)/ N,其中N是我的总数没有收藏中的文件?(并且整个收集的avdl是固定的?)
答案 0 :(得分:7)
根据Integrating the Probabilistic Model BM25/BM25F into Lucene中的JoaquínPérez-Iglesias,评分函数R应定义如下:
,例如
occurs_t^d
是t
中d
的术语频率,l_d
是文档d
长度。avl_d
是文件集合的平均长度k_1
是一个自由参数,通常为2,{0,1]中的b
(通常为0.75)。 将0分配给b
等同于避免标准化过程,因此文档长度不会影响最终分数。
如果b
取1,我们将进行全长标准化。
其中N
是集合中的文档编号,df
是显示术语t
的文档数。