使用目标变量的预定义混合进行训练/验证拆分

时间:2018-09-04 05:56:02

标签: python scikit-learn cross-validation train-test-split

我希望能够使用目标变量的用户定义混合进行训练/验证拆分。 sklearn的StratifiedKFoldStratifiedShuffleSplit保留原始样品的混合物。但是在kaggle或现实生活中,我们通常会有一个单独的测试样品,有时可能会有非常不同的目标混合物。

让我们想象一下我们手头有一个二进制分类问题,但是标记的火车样本具有50/50混合的0/1目标v值,而测试没有标签,但是从一个或另一个来源我们知道比例是90/10。因此,问题是sklearn中是否有一种方法可以将原始样本与90/10混合物进行分割,其中90/10是输入参数。

它不一定是完整的kfold CV拆分,但至少是一个交叉验证索引生成器ala StratifiedShuffleSplit

0 个答案:

没有答案