我有一个数据框,如下所示:
- 第0列(0,1,2,3 ...)指向document_ids
- 40041,37962,37985 ...是表示与文档相关的对象的id。例如,document_id 2具有相关的(真实)对象37985和预测的对象37985,37983。
- 真相–实际物体(金标准)
- 预测-我的算法预测的对象
- 重叠-事实列表和预测列表中都存在对象
- 未检测到–对象存在于“真相”列表中,但未被算法检测到。
我的问题:
- 给定以下数据集,我可以使用哪些评估方法?精度将无法实现,因为我还没有误报。准确性或jaccard相似度如何? Scikit列出了几种评估措施here。我正在寻找评估未排名列表的方法。