应用错误收集

如果你有真相标签，你绝对可以为检索系统计算P @ 1。（在这种情况下，听起来它们将是[Video，DBPedia]匹配人类生成的对）。

人们通常会将此度量视为问答或推荐系统。唯一需要注意的是，你通常不会用它来训练学习排名系统或任何其他学习系统 - 它不是“连续不足”的近似错过（最好在第2级）和总错过（最好在第4级）百万）获得相同的分数，因此在这种情况下通过调整权重很难平滑地改进系统。

对于那些类型的任务，如果需要可调整的东西，使用均值倒数排名是很常见的。 NDCG也趋于合适，因为它具有指数折扣因子。

但精确定义中没有任何内容可以阻止你在第1级计算它。将它描述为“成功@ 1”功能可能更为正确，因为你将获得0/1或1 / 1作为你的两个选择。