针对不同组大小的精确度和召回计算

时间:2015-12-19 21:36:55

标签: machine-learning nlp information-retrieval precision-recall

我在任何地方都没有找到这个问题的答案,所以我希望这里有人可以帮助我和其他有同样问题的人。

假设我有 1000个阳性样本 1500个阴性样本

现在,假设 950 True Positives (正面样本正确分类为正面)和 100误报 (阴性样本被错误地归类为阳性)。

我应该使用这些原始数字来计算 精确度 ,还是应该考虑不同的群​​组规模?

换句话说,我的精确度应该是:

TruePositive /(TruePositive + FalsePositive) = 950 /(950 + 100)= 90.476%

应该是

OR

(TruePositive / 1000)/ [(TruePositive / 1000)+(FalsePositive / 1500)] = 0.95 /(0.95 + 0.067)= 93.44%

在第一次计算中,我没有考虑每组中的样本数量而采用原始数字,而在第二次计算中,我使用每个度量的比例与其对应的组,以消除由此引起的偏差。组'不同大小

1 个答案:

答案 0 :(得分:2)

回答所述问题:按definition,精度由第一个公式计算:TP /(TP + FP)。

但是,这并不意味着您必须使用此公式,即精确度量。还有许多其他措施,请查看this wiki page上的表格,并选择最适合您的任务的表格。

例如,positive likelihood ratio似乎与您的第二个公式最相似。