现在,我正尝试使用Caret rfe函数执行功能选择,因为我处于p >> n的情况下,大多数不涉及某种正则化的回归技术都无法用得好。我已经使用过一些带有正则化(Lasso)的技术,但是现在我想尝试的是减少功能的数量,以便至少可以体面地在其上运行任何类型的回归算法。
control <- rfeControl(functions=rfFuncs, method="cv", number=5)
model <- rfe(trainX, trainY, rfeControl=control)
predict(model, testX)
现在,如果我这样做,将运行使用随机森林的特征选择算法,然后根据5倍交叉验证将具有最佳特征集的模型用于预测吧?
我对这里的两件事感到好奇: 1)是否有一种简单的方法来获取一组特征,并在其上训练用于选择特征的另一项功能?例如,将特征数量从500个减少到20个左右似乎更重要,然后应用k最近邻。
我正在想像这样的简单方法:
control <- rfeControl(functions=rfFuncs, method="cv", number=5)
model <- rfe(trainX, trainY, method = "knn", rfeControl=control)
predict(model, testX)
2)有没有办法调整特征选择算法的参数?我想对mtry的值进行一些控制。使用插入符号中的火车功能时,可以使用传递值网格的相同方法。有没有办法用rfe做这样的事情?
答案 0 :(得分:1)
以下是有关如何使用内置模型执行rfe的简短示例:
library(caret)
library(mlbench) #for the data
data(Sonar)
rctrl1 <- rfeControl(method = "cv",
number = 3,
returnResamp = "all",
functions = caretFuncs,
saveDetails = TRUE)
model <- rfe(Class ~ ., data = Sonar,
sizes = c(1, 5, 10, 15),
method = "knn",
trControl = trainControl(method = "cv",
classProbs = TRUE),
tuneGrid = data.frame(k = 1:10),
rfeControl = rctrl1)
model
#output
Recursive feature selection
Outer resampling method: Cross-Validated (3 fold)
Resampling performance over subset size:
Variables Accuracy Kappa AccuracySD KappaSD Selected
1 0.6006 0.1984 0.06783 0.14047
5 0.7113 0.4160 0.04034 0.08261
10 0.7357 0.4638 0.01989 0.03967
15 0.7741 0.5417 0.05981 0.12001 *
60 0.7696 0.5318 0.06405 0.13031
The top 5 variables (out of 15):
V11, V12, V10, V49, V9
model$fit$results
#output
k Accuracy Kappa AccuracySD KappaSD
1 1 0.8082684 0.6121666 0.07402575 0.1483508
2 2 0.8089610 0.6141450 0.10222599 0.2051025
3 3 0.8173377 0.6315411 0.07004865 0.1401424
4 4 0.7842208 0.5651094 0.08956707 0.1761045
5 5 0.7941775 0.5845479 0.07367886 0.1482536
6 6 0.7841775 0.5640338 0.06729946 0.1361090
7 7 0.7932468 0.5821317 0.07545889 0.1536220
8 8 0.7687229 0.5333385 0.05164023 0.1051902
9 9 0.7982468 0.5918922 0.07461116 0.1526814
10 10 0.8030087 0.6024680 0.06117471 0.1229467
有关更多自定义的信息,请参见:
https://topepo.github.io/caret/recursive-feature-elimination.html