为火车数据创建子集的有效方法

时间:2019-05-30 20:22:08

标签: python pandas scikit-learn

首先,我将数据框分为训练和测试

from sklearn.model_selection import train_test_split
import pandas as pd

train, test = train_test_split(df, test_size=0.2, random_state=0, 
shuffle=True)
label = 'Target'
x_train, y_train = train.drop(label, axis=1), train[label]
x_test, y_test = test.drop(label, axis=1), test[label]

现在,我正在寻找一种有效的方法来随机拆分x_train和y_train数据,但要同时保留x_train和y_train的相同行。 对于此示例,我要制作这些对象:

  1. x_train_20PercentRand
  2. y_train_20PercentRand
  3. x_train_40PercentRand
  4. y_train_40PercentRand

这样做的原因是以后研究增加训练样本的效果有多强,看看在什么时候我的原因不再需要它了。

0 个答案:

没有答案