我正在使用自定义数据集,因此必须自己制作数据集。结果是以下csv格式:
Wall# Target Feature1 Feature2 Feature3 Feature4 ...
1 Yes <float> <float> <float>
2 No
3 Maybe
我尝试了以下方法:
df = pd.read_csv("path_to_csv")
df['split'] = np.random.randn(df.shape[0], 1)
msk = np.random.rand(len(df)) <= 0.7
train.to_csv('train_coeffs.csv', index=False)
test.to_csv('test_coeffs.csv', index=False)
但是它给我混乱的数据值。将数据集随机分为70-30个训练集的最有效方法是什么?