上下文我正在处理具有内置层次结构的数据集:数据是在多个(4)位置(即组)中收集的。为了更好地估计“真实世界”的性能,我热衷于执行嵌套的交叉验证(组=位置)。 目的是在使用其他位置的子样本时,估计每个位置的错误分布(错误,重复)(使用在不同位置训练的模型)。因此,我将创建一个嵌套的交叉验证(外部= rsample :: group_vfold_cv,内部= vfold_cv或引导,重复此子采样过程)。随附的图片应对此做出解释:Dark blue = Assessment/test set. Light-blue = analysis/train set. Red = observations used for training model
@topepo在解释https://tidymodels.github.io/rsample/articles/Applications/Nested_Resampling.html
中的工作流程方面做得很出色问题。我正在运行以下问题: - group_vfold_cv 的结构不同于 vfold_cv 。因此,上面介绍的工作流程无法顺利运行。换句话说,将拆分对象映射到rsample对象中是一个包装器问题。
也请原谅,但是我对术语“折叠”,“重复”和“重新采样”感到有些困惑,这在所使用的 rsample :: 拆分函数中有所不同。
旁注 -我为PLS工作(成本=潜在组件数量) -我是在使用purrr插入的furrr中部署它的,奇怪的是它会产生不同的结果。
干杯, 古斯塔沃