我正在使用randomForest来找出最重要的变量。我期待一些输出定义模型的准确性,并根据它们的重要性对变量进行排序。但我现在有点困惑。我尝试了randomForest,然后运行importance()
来提取变量的重要性。
但后来我看到另一个命令rfcv
(用于特征选择的随机森林交叉验证),这应该是我认为最合适的目的,但我对此的问题是:如何获取列表最重要的变量?运行后怎么看输出?使用哪个命令?
另一件事:randomForest
和predict.randomForest
之间有什么区别?
我对randomforest和R不太熟悉,因此我们将不胜感激。
提前谢谢!
答案 0 :(得分:4)
制作randomForest
模型后,使用predict.randomForest
来使用您在新数据上创建的模型,例如使用训练数据构建随机森林,然后使用predict.randomForest
通过该模型运行验证数据。
至于rfcv,有一个选项recursive
(来自帮助):
是否在变量的每个步骤(重新)评估变量重要性 还原
全部在help file