我是使用Python的新手
首先,我想将数据培训和数据测试划分到
数据培训= 6,数据测试= 2
我对使用csv文件进行随机数据训练和数据测试感到困惑
我一直在尝试拆分数据培训和数据测试,但与csv文件的顺序相同
我们在这里进行数据培训和数据测试:
def ambilData():
df = pd.read_csv("datalatihnodummy.csv", sep=';')
dropdata = df.drop(['data', 'Klasifikasi'], axis =1)
datalatih = dropdata.iloc[:6]
datauji = dropdata.iloc[6:]
return datalatih, datauji
这是培训的结果:
这是测试的输出:
我只想测试B型肝炎或A型肝炎。 有人知道如何随机化我的数据集吗?谢谢你^
这是我的数据:https://drive.google.com/open?id=1tD3h0aS-AB4qrMg2vw0fHcMx6F3jzJCx
答案 0 :(得分:0)
尝试一下:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.15, random_state=1)
它将随机将您的数据分为训练和测试数据。
x_data 是自变量-因此,您要在此处删除“ Klasifikasi”
y_data 是您的因变量,它是'Klasifikasi'
希望这会有所帮助