分类中错误率的定义以及为什么一些研究人员使用错误率代替准确性

时间:2018-10-18 00:39:02

标签: machine-learning classification

分类中错误率的确切定义是什么?为什么 一些研究人员使用错误率报告结果而不是准确性? 我正在尝试将我的文本分类结果与文献中的其他方法进行比较,但是他们使用错误率而不是准确性,因此我无法找到确切的定义/方程式来找到方法的错误率。

1 个答案:

答案 0 :(得分:2)

对于分类,您的输出是离散的(就像您将项目放入存储桶一样),因此准确性具有非常简单的定义:

准确度=(分类为正确的数量)/(分类为总计的数量)

错误率同样简单:

错误率= 1-精度= 1-(#分类为正确)/(#分类为总数)

=(#分类错误)/(#分类总数)

请注意,对于具有连续输出的任务,事情要复杂得多。如果我不是要把物品放在水桶中,而是要模型将物品放在数字行上,则精度不再是“正确” “错误” 的问题而是距离我的模型是正确的。这可以是平均接近度,中间接近度等。还有更复杂的度量,主要区别在于随着距离的增加,他们对距离的加权程度。也许稍微偏离一点点要比大大偏离一点点要糟糕得多,所以使用Root Mean Square错误度量是合适的。另一方面,无论是小幅偏离还是大幅度偏离,多出一点都不是件好事,所以对数误差度量会更好。


要回答问题的最后一部分:在离散情况下,为什么人们会选择精度与误差?光学是一回事:“ 99%准确” 发送的心理信息与“错误率1%” 不同。此外,将精度从99%提高到99.9%可使精度提高1%,但是将误差从1%降低至.1%则将误差降低90%,即使两者表示的是相同的真实世界改变。

否则,可能是个人喜好或写作风格。

编辑:您可能也对this post on the Statistics Stack Exchange

感兴趣