如何使用插入符号在递归特征消除中降低采样率?

时间:2020-06-05 14:28:39

标签: r machine-learning r-caret feature-selection rfe

考虑在此处创建的数据框data

set.seed(123)
num = sample(5:20, replace = T, 20)
id = letters[1:20]
loc <- rep(id, num)
data <- data.frame(Location = loc)
data[paste0('var', seq_along(1:10))] <- rnorm(length(id) * sum(num))

假设data是我的训练数据;每行表示对从由分组变量Location标识的人群中随机抽样的个体进行的测量。我想使用递归特征消除来确定用于预测Location的最佳预测子集。类似地,我想了解每个预测变量在Location中解释了多少变化(即哪些预测最重要,它们更重要)。我已经阅读了如何使用插入符号包使用以下方式完成此操作:

library(caret)
subsets <- 1:9
ctrl <- rfeControl(functions = lmFuncs, method = "repeatedcv", repeats = 10, verbose = F)
lmProfile <- rfe(data[,2:10], data[,1], sizes = subsets, rfeControl = ctrl)

在我的data示例中,考虑到每个Location中样本数量的不平衡,我想使用下采样来确保在{{1 }}。有人可以证明我该怎么做吗?

0 个答案:

没有答案