评估WEKA中的模型

时间:2016-03-12 11:43:52

标签: performance machine-learning classification weka

我在数据集上应用了分类算法,并得出以下统计数据:

Correctly Classified Instances         684               76.1693 %
Incorrectly Classified Instances       214               23.8307 %
Kappa statistic                          0     
Mean absolute error                      0.1343
Root mean squared error                  0.2582
Relative absolute error                100      %
Root relative squared error            100      %
Total Number of Instances              898     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0         0          0         0         0          0.5      1
                 0         0          0         0         0          0.5      2
                 1         1          0.762     1         0.865      0.5      3
                 0         0          0         0         0          ?        4
                 0         0          0         0         0          0.5      5
                 0         0          0         0         0          0.5      U
Weighted Avg.    0.762     0.762      0.58      0.762     0.659      0.5  

=== Confusion Matrix ===

   a   b   c   d   e   f   <-- classified as
   0   0   8   0   0   0 |   a = 1
   0   0  99   0   0   0 |   b = 2
   0   0 684   0   0   0 |   c = 3
   0   0   0   0   0   0 |   d = 4
   0   0  67   0   0   0 |   e = 5
   0   0  40   0   0   0 |   f = U

我可以理解很多数据,但是因为我是Weka的新手,所以解释这些值存在问题: 1.总体报告的错误率是多少? 2.如何解释模型是否有趣?

2 个答案:

答案 0 :(得分:3)

1)总体误差测量

三元组精确度召回 F-Measure 经常被报告,因为每个数字代表模型的不同方面。< / p>

如果只想拥有一个号码,请选择百分比(In)正确分类实例加权平均值。 F-测量

其他错误措施也很有用,但它们需要更深入的统计知识(我缺乏:-)

2)关于模型的一些有趣的东西

详细准确度分类混淆矩阵,您可以看到模型非常简单。 将所有内容归类为第3类。错误度量看起来非常成功,但这仅仅是因为数据集中76%的实例具有类3.模型对应于常用的基线算法,称为“最常见的类”。

答案 1 :(得分:2)

ROC领域在评估准确性和解释模型的有趣程度方面也很有用。简单来说,真阳性率与假阳性率相对应,ROC面积计算为该曲线下方的面积。高ROC区域,比如说0.9比1,表示该模型非常擅长对实例进行分类,而ROC区域为0.5(如模型中所示)意味着模型在分类方面并不比翻转硬币等随机方法更好。