也许这很明显,但我想确定我在做什么:
我理解在sklearn中实现的Group K-fold是k-fold交叉验证的变体,其中确保属于同一组的数据不会在列车中同时表示。
这也是我所需要的。然而,在我发现上述组k-fold的实现之前,当我试图计算有关问题的验证曲线时,我注意到以下参数(突出显示的参数):
validation_curve (估算工具,X,y,param_name,param_range,群组 =无,cv =无......)
根据文档,如果我提供一个大小[n_samples]列表,为相应的组提供标签,那么将根据这些标签完成训练/测试数据集拆分。
这就是问题所在。由于提供了这样一个方便的变量,为什么 - 根据我的搜索 - 每个需要组k-fold验证的人首先使用sklearn.model_selection。 GroupKFold ?
我在这里错过了什么吗?