我正在构建质量检查机器,并且我拥有用于此任务的数据。我有一个问题,一个问题可以有2个或更多答案。例如:
问题:“ A必须做什么?”
正确答案:
在我的质量检查模型中,我可以获得k个最佳答案。但是,在某些情况下,不仅k的正确答案数不相等,而且k的一些答案也不正确。
大多数公共数据集,例如SQuAD,triviaQA,都有一对带一个问题和一个答案的对。就我而言,我的问题可以有多个答案。那么,我应该使用哪种评估指标?我可以使用F1分数吗?
答案 0 :(得分:1)
评估指标应始终取决于所开发系统的使用方式。 F1分数肯定是一个合理的统计数据,它可以告诉您很多有关正确答案和错误答案的分布情况。
如果您要从系统中提出一个最佳答案,则还应该衡量1个最佳准确性。如果要给出多个答案,则应测量precision at n(即,正确答案在 n 个最佳答案中的比例,实际上是回想起的,但是信息检索人员称其为“精确”) )。
如果不确定要提供多少合适的答案,则可能需要绘制ROC curve并计算AUC分数。