Question

我是使用Python的新手

首先，我想将数据培训和数据测试划分到

数据培训= 6，数据测试= 2

我对使用csv文件进行随机数据训练和数据测试感到困惑

我一直在尝试拆分数据培训和数据测试，但与csv文件的顺序相同

我们在这里进行数据培训和数据测试：

def ambilData():
df = pd.read_csv("datalatihnodummy.csv", sep=';')
dropdata = df.drop(['data', 'Klasifikasi'], axis =1)
datalatih = dropdata.iloc[:6]
datauji = dropdata.iloc[6:]
return datalatih, datauji

这是培训的结果：

这是测试的输出：

我只想测试B型肝炎或A型肝炎。有人知道如何随机化我的数据集吗？谢谢你^

这是我的数据：https://drive.google.com/open?id=1tD3h0aS-AB4qrMg2vw0fHcMx6F3jzJCx

Answer 1

尝试一下：

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.15, random_state=1)

它将随机将您的数据分为训练和测试数据。

x_data 是自变量-因此，您要在此处删除“ Klasifikasi”

y_data 是您的因变量，它是'Klasifikasi'

希望这会有所帮助

熊猫CSV中的拆分随机数据训练和数据测试

1 个答案: