如何将数据集拆分为平衡测试并训练数据集,同时将具有相同属性的样本保持在一起?

时间:2019-12-02 16:44:56

标签: python machine-learning

是否可以将数据集(Pandas Dataframe)拆分为平衡测试和训练数据集,同时将具有相同属性的样本保持在一起?

使用以下代码,我可以生成平衡测试并训练数据集,但是数据集中有一个名为'Session'的列,显示具有相同'Session'值的样本在分割数据集时应保持在一起训练和测试。

sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=0)

col = list(dataset.columns.values)    
col.remove('Label')

train_index, test_index = sss.split(dataset[col], dataset['Label'])

0 个答案:

没有答案