所以我在我的数据集上得到了NaïvesBayes分类的以下结果:
但我仍然坚持理解如何解释数据。我想找到并比较每个班级(a-g)的准确性。
我知道使用这个公式可以找到准确度:
但是,让我们上课。如果我取正确分类的实例数量 - 313 - 并将其除以行a中的'a'(4953)的总数,则得到~6.32%。这会是准确性吗?
编辑:如果我们使用列而不是行,我们得到313/1199
,这得到~26.1%,这似乎是一个更合理的数字。
编辑2:我已经使用上面显示的精确度计算计算了excel中a
的准确度,它的准确度为84%:
这似乎不对,因为分类的整体准确性成功率为~24%
答案 0 :(得分:1)
否 - 您计算的所有内容均为tp/(tp+fn)
,即a
类的正确标识总数除以实际a
示例的总和。这是召回,而不是准确性。你需要包括其他两个数字。
fp
是a
列的其余部分; tn
是非a
行和列中的所有其他数字,即6x6子矩阵。这会将所有35K +试验减少到标有a
和not a
的2x2矩阵,这是您已经熟悉的2x2混淆矩阵。
是的,您可以为七个功能中的每一个重复这种减少。我建议以编程方式进行。
回应OP更新
你的准确度 那么高:你有巨大数量的真阴性,而不是一个被正确归类为不是的样本 - 一个。
也许它感觉不对,因为我们的经验更多地关注有问题的课程。有[其他统计数据处理这一焦点。
tp / (tp+fn)
- 实际上在课程a
中的所有项目,我们正确识别的百分比是多少?这是6.32%的数字。tp / (tp + fp)
- 标识为班级a
的所有项目,实际上该班级的百分比。这是您计算的26.1%数字。