import pandas as pd
import statsmodels.formula.api as sm
train = pd.read_csv('/Users/..../Desktop/train.csv')
from sklearn.cross_validation import train_test_split
所以我坚持如何在火车/测试中进行70/30分裂...这是基于使用ipython进行kaggle工作薪水预测
答案 0 :(得分:0)
如果Data
将所有数据集(独立人员和家属)保存在一个numpy数组中:
以这种方式
Data=([[1, 2, 3, 430],[...]...])
3个独立人士和一个受抚养人
你可以像这样设置切片的索引:
test_ind=int(Data.shape[0]*0.3)
train_ind=Data.shape[0]-test_ind
Data[:train_ind,:4]
将是您的训练数据
Data[train_ind:,:4]
将是您的测试数据