R灵敏度随机森林

时间:2016-05-14 20:49:48

标签: r random-forest

是否可以运行监督分类随机森林最大化灵敏度(TP /(TP + FN))? 据我所知,Accuracy或Kappa是指标。 下面是一个真实的例子,其中Kappa和Accuracy都没有按照要求评估模型。正如答案和评论(@Hanjo和@Aaron)所指出的,仅灵敏度并不是一个好的指标。

      0    1     T  
0  1213   50  1263  
1   608   63   671  
T  1821  113  1934  

> Precisao(prev_table)
[1] "accuracy(TP+TN/T)= 0.66"
[1] "precision(TP/TP+FP)= 0.558"
[1] "sensitivity(TP/TP+FN)= 0.0939"
[1] "positive= 671 0.347"
[1] "negative= 1263 0.653"
[1] "predicted positive= 113 0.0584"
[1] "predicted negative= 1821 0.942"
[1] "Total= 1934"

这个真正的x预测结果很差。

1 个答案:

答案 0 :(得分:3)

让我详细说明为什么选择“敏感度”或“特异性”,因为性能指标可能不是一个好主意,为什么我说你必须选择kappa(特别是在不平衡的类预测中)

想象一下,我们有以下数据集和预测结果:

x   Outcome Prediction
0.515925884 1   1
0.416949071 0   1
0.112185499 0   1
0.557334124 0   1
0.599717812 0   1
0.272965861 1   1
0.898911346 0   1
0.347428065 0   1

如果模型在所有观察结果上预测为1,那么您将具有100%的灵敏度,并错误地假设该模型表现良好。如果模型预测所有结果为0,则相同,这与100%特异性相关。但这是否意味着模型得到了很好的调整?显然不是,作为一个简单的“预测”所有结果作为真阳性的规则将给你100%的特异性。现在,kappa使用以下模型性能衡量标准:

Kappa统计量(或值)是将观察到的准确度与预期准确度(随机机会)进行比较的度量标准。这是衡量模型性能的更具代表性的指标。可以在Stats Exchange

找到解释此问题的好答案