如何解读weka分类?

时间:2010-05-25 10:55:31

标签: classification weka

我们如何使用朴素贝叶斯来解释weka中的分类结果?

如何计算平均值,标准差,重量和和精度?

如何计算kappa统计量,平均绝对误差,均方根误差等?

混淆矩阵的解释是什么?

4 个答案:

答案 0 :(得分:88)

下面是一个朴素贝叶斯分类器的一些示例输出,使用10倍交叉验证。那里有很多信息,你应该关注的内容取决于你的应用程序。我将在下面解释一些结果,以帮助您入门。

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances          71               71      %
Incorrectly Classified Instances        29               29      %
Kappa statistic                          0.3108
Mean absolute error                      0.3333
Root mean squared error                  0.4662
Relative absolute error                 69.9453 %
Root relative squared error             95.5466 %
Total Number of Instances              100     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.967     0.692      0.686     0.967     0.803      0.709    0
                 0.308     0.033      0.857     0.308     0.453      0.708    1
Weighted Avg.    0.71      0.435      0.753     0.71      0.666      0.709

=== Confusion Matrix ===

  a  b   <-- classified as
 59  2 |  a = 0
 27 12 |  b = 1

正确和错误分类的实例显示正确和错误分类的测试实例的百分比。原始数字显示在混淆矩阵中,ab表示类标签。这里有100个实例,因此百分比和原始数字相加,aa + bb = 59 + 12 = 71,ab + ba = 27 + 2 = 29

正确分类的实例的百分比通常称为准确度或样本准确度。它有一些缺点作为性能估计(不是机会校正,对类分布不敏感),所以你可能想看一些其他数字。 ROC区域或ROC曲线下的区域是我的首选措施。

Kappa是一种机会纠正措施,用于分类和真正的类别之间的一致性。计算方法是将预期的协议从观察到的协议中除去并除以最大可能的协议。大于0的值意味着你的分类器比偶然的好(它确实应该是!)。

错误率用于数字预测而不是分类。在数字预测中,预测不仅正确或错误,误差具有一定的幅度,这些指标反映了这一点。

希望这会让你开始。

答案 1 :(得分:28)

详细说明michaeltwofish的回答,关于其余值的一些注释:

  • TP率:真阳性率(正确分类为给定类的实例)

  • FP率:误报率(错误地归类为给定类别的实例)

  • 精确度:真正属于某个类的实例的比例除以归类为该类的总实例

  • 召回:分类为给定类别的实例比例除以该类别中的实际总数(相当于TP费率)

  • F-Measure :精确度和召回率的组合度量计算为2 *精度*召回/(精确+召回)

至于ROC区域测量,我同意michaeltwofish这是Weka输出的最重要的值之一。 “最佳”分类器的ROC面积值接近1,其中0.5与“随机猜测”相当(类似于Kappa统计值为0)。

应该注意,在解释结果时需要考虑数据集的“平衡”。不平衡的数据集(其中不成比例的大量实例属于某一类)可能会导致高准确率,即使分类器可能不一定特别好。

进一步阅读:

答案 2 :(得分:1)

什么是朴素贝叶斯?

explanation可能有助于澄清Naive Bayes 的含义;它假设变量独立。为了具体说明,我们想要预测是否有人走过了布鲁克林的展望公园。我们有关于他们是否

的数据

a)住在纽约市

b)住在一个城市

Naive Bayes会假设这两个变量是独立的。但显然,如果他们住在纽约市,他们也住在 城市。这是一个愚蠢的例子,因为(希望)没有人会将数据科学用于这些变量,但它显示了独立意味着什么。如果是,那么b。此外,如果不是b,那么不是a。

存在依赖性,因此 Naive 贝叶斯'天真假设不成立。

Weka Tutorial

This page可能对新手有用。它给了我很多帮助;它走过了

我与Jason Brownlee无关。他似乎有点销售,但这样做的好处是他保持简单,因为他的目标是初学者

答案 3 :(得分:0)

它给出了&#34; 50050000&#34;的每个值。对于某些算法,对于其他分类器,这些值约为49.7,87.4,98.2等等。