应用错误收集

我有来自多个来源的数据：A, B, C, D这些来源拥有不同的特征分布，因此当我拆分它们时，我希望在训练和测试集中使用每个特征。我还有一个AUGMENTED来源，它只是通过结合上述来源而得到的增强数据。

我需要的是一种有效的方法来训练/测试分解上述来源并将AUGMENTED保留在训练集中。这是一个二进制分类问题，某些来源专门包含给定标签，有时则包含两者。

目前，我只是简单地进行代码分割和熊猫随机抽样。我经常遇到这个问题，所以也许我在sklearn的文档中丢失了一些东西。