是否可以将数据集(Pandas Dataframe
)拆分为平衡测试和训练数据集,同时将具有相同属性的样本保持在一起?
使用以下代码,我可以生成平衡测试并训练数据集,但是数据集中有一个名为'Session'
的列,显示具有相同'Session'
值的样本在分割数据集时应保持在一起训练和测试。
sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=0)
col = list(dataset.columns.values)
col.remove('Label')
train_index, test_index = sss.split(dataset[col], dataset['Label'])