标签: scikit-learn
我有来自多个来源的数据:A, B, C, D这些来源拥有不同的特征分布,因此当我拆分它们时,我希望在训练和测试集中使用每个特征。我还有一个AUGMENTED来源,它只是通过结合上述来源而得到的增强数据。
A, B, C, D
AUGMENTED
我需要的是一种有效的方法来训练/测试分解上述来源并将AUGMENTED保留在训练集中。这是一个二进制分类问题,某些来源专门包含给定标签,有时则包含两者。
目前,我只是简单地进行代码分割和熊猫随机抽样。我经常遇到这个问题,所以也许我在sklearn的文档中丢失了一些东西。
sklearn