我正在扩充我的数据,我想确保在交叉验证期间相关数据不会分成不同的折叠。
我知道scikit-learn有一个标记的k-fold算法,该算法接收标签列表以及数据集,并确保在2个不同的折叠中找不到相同的标签。在R中有相同的这个吗?我正在使用插入包来进行回归建模。
答案 0 :(得分:0)
mlr package似乎有这种功能。 'blocking'选项明确指定在重新采样时块中的所有观察必须包含在一起。如果你不太喜欢插入符号包,你可以考虑使用它。
答案 1 :(得分:0)
检查http://topepo.github.io/caret/model-training-and-tuning.html#customizing-the-tuning-process
将trainControl
与method = "cv"
和number = 5
或您正在寻找的任意数量的折叠一起使用。还有一个"repeatedcv"
方法可以重新采样数据。