Okapi BM25的平均文件长度

时间:2014-04-18 20:20:35

标签: information-retrieval

我正在研究Okapi BMS25型号。我理解一切,但两个混乱。在计算文档长度(dl)和平均文档长度(avdl)时。我发现文件长度是

enter image description here

因此,它是特定文档中我的关键字/术语的总和。但是当我看到维基的def:

enter image description here

所以| D |是文字D的长度(即总字数的总和)。 现在,问题究竟是什么dl?

现在,第二个问题如何计算avdl? (只是计算(doc1 + doc2 + ... N)/ N,其中N是我的总数没有收藏中的文件?(并且整个收集的avdl是固定的?)

1 个答案:

答案 0 :(得分:7)

根据Integrating the Probabilistic Model BM25/BM25F into Lucene中的JoaquínPérez-Iglesias,评分函数R应定义如下:

enter image description here

,例如

  • occurs_t^dtd的术语频率,
  • l_d是文档d长度。
  • avl_d是文件集合的平均长度
  • k_1是一个自由参数,通常为2,{0,1]中的b(通常为0.75)。

将0分配给b等同于避免标准化过程,因此文档长度不会影响最终分数。

如果b取1,我们将进行全长标准化。

enter image description here

其中N是集合中的文档编号,df是显示术语t的文档数。