随机将CSV数据集拆分为70-30?

时间:2018-06-26 13:25:16

标签: python pandas scikit-learn dataset

我正在使用自定义数据集,因此必须自己制作数据集。结果是以下csv格式:

Wall#    Target    Feature1    Feature2    Feature3    Feature4    ...
1         Yes       <float>     <float>     <float>
2         No
3         Maybe

我尝试了以下方法:

df = pd.read_csv("path_to_csv")
df['split'] = np.random.randn(df.shape[0], 1)
msk = np.random.rand(len(df)) <= 0.7
train.to_csv('train_coeffs.csv', index=False)
test.to_csv('test_coeffs.csv', index=False)

但是它给我混乱的数据值。将数据集随机分为70-30个训练集的最有效方法是什么?

0 个答案:

没有答案