我正在研究一个信息检索系统,该系统旨在选择第一个结果并将其链接到其他数据库。实际上,我们的系统基于视频的关键字描述,并尝试将视频链接到具有与描述相同含义的DBpedia实体。在评估步骤中,我注意到大多数评估将精确截止的最小值设置为5,而在我们的系统中则不合适。我想把间隔[1,5] :( P @ 1,...... P @ 5)。这可能吗? ! 请提供您的建议和对一些注释的参考..谢谢..
答案 0 :(得分:1)
如果你有真相标签,你绝对可以为检索系统计算P @ 1。 (在这种情况下,听起来它们将是[Video,DBPedia]匹配人类生成的对)。
人们通常会将此度量视为问答或推荐系统。唯一需要注意的是,你通常不会用它来训练学习排名系统或任何其他学习系统 - 它不是“连续不足”的近似错过(最好在第2级)和总错过(最好在第4级)百万)获得相同的分数,因此在这种情况下通过调整权重很难平滑地改进系统。
对于那些类型的任务,如果需要可调整的东西,使用均值倒数排名是很常见的。 NDCG也趋于合适,因为它具有指数折扣因子。
但精确定义中没有任何内容可以阻止你在第1级计算它。将它描述为“成功@ 1”功能可能更为正确,因为你将获得0/1或1 / 1作为你的两个选择。