如何使用randomForest包进行功能选择?

时间:2012-07-10 11:25:46

标签: r random-forest feature-selection

我正在使用randomForest来找出最重要的变量。我期待一些输出定义模型的准确性,并根据它们的重要性对变量进行排序。但我现在有点困惑。我尝试了randomForest,然后运行importance()来提取变量的重要性。 但后来我看到另一个命令rfcv(用于特征选择的随机森林交叉验证),这应该是我认为最合适的目的,但我对此的问题是:如何获取列表最重要的变量?运行后怎么看输出?使用哪个命令?

另一件事:randomForestpredict.randomForest之间有什么区别?

我对randomforest和R不太熟悉,因此我们将不胜感激。

提前谢谢!

1 个答案:

答案 0 :(得分:4)

制作randomForest模型后,使用predict.randomForest来使用您在新数据上创建的模型,例如使用训练数据构建随机森林,然后使用predict.randomForest通过该模型运行验证数据。

至于rfcv,有一个选项recursive(来自帮助):

  

是否在变量的每个步骤(重新)评估变量重要性   还原

全部在help file