熊猫CSV中的拆分随机数据训练和数据测试

时间:2019-12-17 15:45:02

标签: python pandas

我是使用Python的新手

首先,我想将数据培训和数据测试划分到

  

数据培训= 6,数据测试= 2

我对使用csv文件进行随机数据训练和数据测试感到困惑

我一直在尝试拆分数据培训和数据测试,但与csv文件的顺序相同

我们在这里进行数据培训和数据测试:

def ambilData():
df = pd.read_csv("datalatihnodummy.csv", sep=';')
dropdata = df.drop(['data', 'Klasifikasi'], axis =1)
datalatih = dropdata.iloc[:6]
datauji = dropdata.iloc[6:]
return datalatih, datauji

这是培训的结果:

  
    

enter image description here

  

这是测试的输出:

  

enter image description here

我只想测试B型肝炎或A型肝炎。 有人知道如何随机化我的数据集吗?谢谢你^

这是我的数据:https://drive.google.com/open?id=1tD3h0aS-AB4qrMg2vw0fHcMx6F3jzJCx

1 个答案:

答案 0 :(得分:0)

尝试一下:

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.15, random_state=1)

它将随机将您的数据分为训练和测试数据。

x_data 是自变量-因此,您要在此处删除“ Klasifikasi”

y_data 是您的因变量,它是'Klasifikasi'

希望这会有所帮助