Adaboost weka真阳性与假阳性识别问题

时间:2013-05-24 00:12:28

标签: classification weka adaboost roc

我在Weka Experiment Environment中使用Adaboost M1算法,默认设置为:

  1. 运行(1-10) - > 10次​​运行以提供更具统计意义的结果
  2. 随机拆分结果生成器
  3. 我使用列车百分比来从评估数据中划分培训
  4. 现在,问题在于加权平均TP和FP结果。 我明白了:

    TP:0.8
    FP:0.47

    但据我所知,如果TP率为0.8,FP率应该高达0.2? 我认为这必须做10次运行,但无论如何,如果从这次运行中获取平均值,那么这个FP率应该会低得多吗?

    对不起,如果这是一个太简单的问题,但从我的逻辑来看,这似乎是Weka工具包中的错误,或者我错了?感谢

    编辑:

    为了避免提出新问题并且因为这与同一问题有关,任何人都可以回答Weka中显示的加权平均值吗?

    我已经在下面列出了Atilla的例子:可以看出加权平均值不是平均值,例如。 AVG(0.933,0.422)!= 0.77等。

    有人可以回答这些值实际上是什么吗?

    ===按班级详细的准确度===

             TP Rate  FP Rate  Precision  Recall  F-Measure  MCC    ROC Area  PRC Area  Class
             0.933    0.578    0.776      0.933   0.847      0.429  0.844     0.917     tested_negative
             0.422    0.067    0.745      0.422   0.538      0.429  0.844     0.696     tested_positive
    

    加权平均值0.77 0.416 0.766 0.77 0.749 0.429 0.844 0.847

1 个答案:

答案 0 :(得分:1)

我在weka的糖尿病数据集上使用默认参数运行adoboostM1。我得到了以下结果。

=== Detailed Accuracy By Class ===

             TP Rate  FP Rate  Precision  Recall  F-Measure  MCC    ROC Area  PRC Area  Class
             0.933    0.578    0.776      0.933   0.847      0.429  0.844     0.917     tested_negative
             0.422    0.067    0.745      0.422   0.538      0.429  0.844     0.696     tested_positive
Weighted Avg.    0.77     0.416    0.766      0.77    0.749      0.429  0.844     0.847

请注意,此TP费率和FP费率适用于每个类值。由于此数据集中的类功能的两(2)值,我有两(2)行。

另请注意:

0.933  + 0.067 = 1 
0.578 + 0.422 = 1 

正确指出TP率+ FP率应等于一(1)。所以在你的例子中:我假设你有以下类变量:

target {A,B}

TP Rate FP Rate 
0.8      0.47   ..... for A
0.53     0.2    ..... for B