我在数据集上应用了分类算法,并得出以下统计数据:
Correctly Classified Instances 684 76.1693 %
Incorrectly Classified Instances 214 23.8307 %
Kappa statistic 0
Mean absolute error 0.1343
Root mean squared error 0.2582
Relative absolute error 100 %
Root relative squared error 100 %
Total Number of Instances 898
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0 0 0 0 0 0.5 1
0 0 0 0 0 0.5 2
1 1 0.762 1 0.865 0.5 3
0 0 0 0 0 ? 4
0 0 0 0 0 0.5 5
0 0 0 0 0 0.5 U
Weighted Avg. 0.762 0.762 0.58 0.762 0.659 0.5
=== Confusion Matrix ===
a b c d e f <-- classified as
0 0 8 0 0 0 | a = 1
0 0 99 0 0 0 | b = 2
0 0 684 0 0 0 | c = 3
0 0 0 0 0 0 | d = 4
0 0 67 0 0 0 | e = 5
0 0 40 0 0 0 | f = U
我可以理解很多数据,但是因为我是Weka的新手,所以解释这些值存在问题: 1.总体报告的错误率是多少? 2.如何解释模型是否有趣?
答案 0 :(得分:3)
三元组精确度,召回和 F-Measure 经常被报告,因为每个数字代表模型的不同方面。< / p>
如果只想拥有一个号码,请选择百分比(In)正确分类实例或加权平均值。 F-测量强>
其他错误措施也很有用,但它们需要更深入的统计知识(我缺乏:-)
从详细准确度分类和混淆矩阵,您可以看到模型非常简单。 将所有内容归类为第3类。错误度量看起来非常成功,但这仅仅是因为数据集中76%的实例具有类3.模型对应于常用的基线算法,称为“最常见的类”。
答案 1 :(得分:2)
ROC领域在评估准确性和解释模型的有趣程度方面也很有用。简单来说,真阳性率与假阳性率相对应,ROC面积计算为该曲线下方的面积。高ROC区域,比如说0.9比1,表示该模型非常擅长对实例进行分类,而ROC区域为0.5(如模型中所示)意味着模型在分类方面并不比翻转硬币等随机方法更好。