我正在研究一个项目,其中有两个excel的一个master.xls和另一个sample.xls。主文件同时具有因变量和自变量。 sample.xls仅具有自变量,需要创建自变量(1或0,1 =糖尿病,0 =非糖尿病)
现在,我需要使用主文件来训练模型并预测样本文件的自变量。但是不确定如何在训练和测试之间分配数据。需要帮忙。
答案 0 :(得分:0)
使用read_excel库的pandas函数来加载数据(例如master.xls)
import pandas as pd
df = pd.read_excel('master.xls')
让我们说y
是因变量(即机器学习术语中的基本事实值)。获取y
列值,并将其从dataframe df
y = df['y']
df = df.drop(['y'],axis=1)
现在使用train_test_split的scikit-learn函数将数据拆分为train
和test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df, y, test_size=0.3)
现在,X_train
将具有总数据点的70%
,而X_test
将具有总数据点的30%
。 y_train
和y_test
分别是train
和test
数据的因变量