我正在使用Indri和TrecEval,我想知道我们是否可以使用F测量,精确度,召回,以及排名检索结果。
如果是,F-measure将意味着什么?这些值是否有某种相关性,例如评估查询是否接近语料库?
我知道MAP值用于评估排名结果。但我想知道F-measure ......是否对其他东西有用。我在这里很困惑,我做了研究,但有一些我没有得到的。
感谢您的帮助。
答案 0 :(得分:0)
Precision,Recall和F1是基于设置的度量。这意味着他们得到一组文件,而不是排名。
我们通常会在固定数量的顶级文件中评估这些措施:5,10,20,50,100,500,1000。然后我们可以绘制一条曲线,并以某种方式向我们展示整个排名。
或者你会谈到20岁时的精确度/召回率,例如:在大多数接口的前两页结果中。 F1不会用于IR,因为我们的排名测量无论如何都要平衡这些(AP,NDCG等)。
F1 @ 20将根据您的排名给您一个代表最佳10个文档中召回和精确度的几何平均值的数字。