如何使用varImp函数为随机森林选择功能?

时间:2015-05-04 14:03:21

标签: r random-forest feature-selection

我在训练数据上应用了随机森林,这些数据有大约100个特征。现在我想应用特征选择技术,以便在对数据应用随机森林模型之前减少特征的数量。如何使用varImp函数(来自插入包)来选择重要的功能?我读到varImp本身使用一些分类方法来选择特征(我发现它非常直观)。我如何应用varImp来获取重要的特征子集,然后我可以在应用随机森林分类算法时使用这些特征?

1 个答案:

答案 0 :(得分:1)

来自caret软件包作者Max Khun feature selection

  

许多可以使用插入符号列车功能访问的模型产生   预测方程式,不一定使用所有预测变量。   这些模型被认为具有内置特征选择

rf就是其中之一。

  

许多函数都有一个名为predictors的辅助方法   返回一个向量,指示在决赛中使用了哪些预测变量   模型。

如果您想在模型中检索重要性得分,请在importance = TRUE来电中添加train()

  

在许多情况下,使用具有内置功能选择的这些模型将会   比搜索例程的算法更高效   正确的预测因子是模型的外部。内置功能选择   通常将预测器搜索算法与参数耦合   估计并且通常使用单个目标函数进行优化   (例如错误率或可能性)。