我正在R中使用randomForest
包来训练随机森林分类模型(2个类)并设置可选参数importance=T
。
我想使用重要性标准偏差作为可变重要性图中的误差线,因此我从模型对象以及重要性SD中提取准确性的平均下降。这需要使用rf$importance[,3]
和rf$importanceSD[,3]
。
我无法弄清楚的是输出平均精度降低(MDA)的单位。如果使用默认的varImpPlot(rf, type=1)
函数缩放可变重要性图,则MDA将通过标准差归一化。我想这可以让您以SD单位将MDA与给定预测变量的mu = 0进行比较,这并不是我真正想要的。我想要的是当对变量进行排列时精度的百分比降低,我将其设为rf$importance[,3] * 100
。那是对的吗?
我不确定,因为对模型中的最佳预测变量进行置换只会导致精度降低约0.5%,这似乎很低,也不值得关注。但是,当您按其SD缩放MDA时,varImpPlot上的值约为15。我不想做后者,因为我试图将OOB交叉验证错误(rf$importanceSD[,3]
)用作重要度可变图中的误差线。
抱歉,不包含数据,它太笨拙了,我正在寻找更多有关randomForest
函数输出的重要单位的说明。文档中没有明确说明单位是什么,我也无法在线找到明确的答案。
在此先感谢您的帮助!