如何从7x7混淆矩阵计算类的准确性?

时间:2017-11-03 15:26:34

标签: machine-learning classification weka confusion-matrix

所以我在我的数据集上得到了NaïvesBayes分类的以下结果:

enter image description here

但我仍然坚持理解如何解释数据。我想找到并比较每个班级(a-g)的准确性。

我知道使用这个公式可以找到准确度:

enter image description here

但是,让我们上课。如果我取正确分类的实例数量 - 313 - 并将其除以行a中的'a'(4953)的总数,则得到~6.32%。这会是准确性吗?

编辑:如果我们使用列而不是行,我们得到313/1199,这得到~26.1%,这似乎是一个更合理的数字。

编辑2:我已经使用上面显示的精确度计算计算了excel中a的准确度,它的准确度为84%:

enter image description here

这似乎不对,因为分类的整体准确性成功率为~24%

1 个答案:

答案 0 :(得分:1)

否 - 您计算的所有内容均为tp/(tp+fn),即a类的正确标识总数除以实际a示例的总和。这是召回,而不是准确性。你需要包括其他两个数字。

fpa列的其余部分; tn是非a行和列中的所有其他数字,即6x6子矩阵。这会将所有35K +试验减少到标有anot a的2x2矩阵,这是您已经熟悉的2x2混淆矩阵。

是的,您可以为七个功能中的每一个重复这种减少。我建议以编程方式进行。

回应OP更新

你的准确度 那么高:你有巨大数量的真阴性,而不是一个被正确归类为不是的样本 - 一个。

也许它感觉不对,因为我们的经验更多地关注有问题的课程。有[其他统计数据处理这一焦点。

  • 召回tp / (tp+fn) - 实际上在课程a中的所有项目,我们正确识别的百分比是多少?这是6.32%的数字。
  • 精确度tp / (tp + fp) - 标识为班级a的所有项目,实际上该班级的百分比。这是您计算的26.1%数字。