计算分类准确度的最佳方法是?

时间:2016-02-25 02:45:03

标签: math machine-learning statistics neural-network probability

我知道计算分类准确度的一个公式是 X = t / n * 100 (其中t是正确分类的数量,n是样本的总数。)

但是,假设我们共有100个样本,A类80个,B类10个,C类10个。

场景1:所有100个样本都被分配到A类,通过使用公式,我们得到的准确度等于80%。

场景2:属于B的10个样本被正确分配给B类;属于C的10个样本也正确分配给C类; 30个样本属于A,正确分配给A类;其余50个属于A的样本被错误地分配给C.通过使用该公式,我们得到了50%的准确度。

我的问题是:

1:我们可以说情景1的准确率高于情景2吗?

2:有没有办法计算分类问题的准确率?

非常感谢!

1 个答案:

答案 0 :(得分:11)

分类准确度定义为"正确预测的百分比"。无论课程数量多少都是如此。因此,方案1具有比方案2更高的分类准确度。

然而,听起来您真正要求的是另一种评估指标或流程,即奖励"方案2仅用于表达某些类型的错误。我有两个建议:

  1. 创建confusion matrix:它描述了分类器的性能,以便您可以查看分类器所犯的错误类型。
  2. 计算每个班级的精确度,召回率和F1分数。 F1平均分数可能是您要查找的单数字指标。
  3. scikit-learn文档的Classification metrics section有很多关于分类器评估的好信息,即使你不是scikit-learn用户。