Question

考虑在此处创建的数据框data：

set.seed(123)
num = sample(5:20, replace = T, 20)
id = letters[1:20]
loc <- rep(id, num)
data <- data.frame(Location = loc)
data[paste0('var', seq_along(1:10))] <- rnorm(length(id) * sum(num))

假设data是我的训练数据；每行表示对从由分组变量Location标识的人群中随机抽样的个体进行的测量。我想使用递归特征消除来确定用于预测Location的最佳预测子集。类似地，我想了解每个预测变量在Location中解释了多少变化（即哪些预测最重要，它们更重要）。我已经阅读了如何使用插入符号包使用以下方式完成此操作：

library(caret)
subsets <- 1:9
ctrl <- rfeControl(functions = lmFuncs, method = "repeatedcv", repeats = 10, verbose = F)
lmProfile <- rfe(data[,2:10], data[,1], sizes = subsets, rfeControl = ctrl)

在我的data示例中，考虑到每个Location中样本数量的不平衡，我想使用下采样来确保在{{1 }}。有人可以证明我该怎么做吗？

如何使用插入符号在递归特征消除中降低采样率？

0 个答案: