我在训练数据上应用了随机森林,这些数据有大约100个特征。现在我想应用特征选择技术,以便在对数据应用随机森林模型之前减少特征的数量。如何使用varImp函数(来自插入包)来选择重要的功能?我读到varImp本身使用一些分类方法来选择特征(我发现它非常直观)。我如何应用varImp来获取重要的特征子集,然后我可以在应用随机森林分类算法时使用这些特征?
答案 0 :(得分:1)
来自caret
软件包作者Max Khun feature selection:
许多可以使用插入符号列车功能访问的模型产生 预测方程式,不一定使用所有预测变量。 这些模型被认为具有内置特征选择
rf
就是其中之一。
许多函数都有一个名为
predictors
的辅助方法 返回一个向量,指示在决赛中使用了哪些预测变量 模型。
如果您想在模型中检索重要性得分,请在importance = TRUE
来电中添加train()
在许多情况下,使用具有内置功能选择的这些模型将会 比搜索例程的算法更高效 正确的预测因子是模型的外部。内置功能选择 通常将预测器搜索算法与参数耦合 估计并且通常使用单个目标函数进行优化 (例如错误率或可能性)。