我在任何地方都没有找到这个问题的答案,所以我希望这里有人可以帮助我和其他有同样问题的人。
假设我有 1000个阳性样本 和 1500个阴性样本 。
现在,假设 950 True Positives (正面样本正确分类为正面)和 100误报 (阴性样本被错误地归类为阳性)。
我应该使用这些原始数字来计算 精确度 ,还是应该考虑不同的群组规模?
换句话说,我的精确度应该是:
TruePositive /(TruePositive + FalsePositive) = 950 /(950 + 100)= 90.476%
应该是OR :
(TruePositive / 1000)/ [(TruePositive / 1000)+(FalsePositive / 1500)] = 0.95 /(0.95 + 0.067)= 93.44%
在第一次计算中,我没有考虑每组中的样本数量而采用原始数字,而在第二次计算中,我使用每个度量的比例与其对应的组,以消除由此引起的偏差。组'不同大小
答案 0 :(得分:2)
回答所述问题:按definition,精度由第一个公式计算:TP /(TP + FP)。
但是,这并不意味着您必须使用此公式,即精确度量。还有许多其他措施,请查看this wiki page上的表格,并选择最适合您的任务的表格。
例如,positive likelihood ratio似乎与您的第二个公式最相似。