我希望能够使用目标变量的用户定义混合进行训练/验证拆分。 sklearn的StratifiedKFold
和StratifiedShuffleSplit
保留原始样品的混合物。但是在kaggle或现实生活中,我们通常会有一个单独的测试样品,有时可能会有非常不同的目标混合物。
让我们想象一下我们手头有一个二进制分类问题,但是标记的火车样本具有50/50混合的0/1目标v值,而测试没有标签,但是从一个或另一个来源我们知道比例是90/10。因此,问题是sklearn中是否有一种方法可以将原始样本与90/10混合物进行分割,其中90/10是输入参数。
它不一定是完整的kfold CV拆分,但至少是一个交叉验证索引生成器ala StratifiedShuffleSplit