将数据拆分为训练和测试集

时间:2014-06-23 06:35:05

标签: python kaggle

import pandas as pd
import statsmodels.formula.api as sm
train = pd.read_csv('/Users/..../Desktop/train.csv')
from sklearn.cross_validation import train_test_split

所以我坚持如何在火车/测试中进行70/30分裂...这是基于使用ipython进行kaggle工作薪水预测

1 个答案:

答案 0 :(得分:0)

如果Data将所有数据集(独立人员和家属)保存在一个numpy数组中: 以这种方式

Data=([[1, 2, 3, 430],[...]...]) 

3个独立人士和一个受抚养人

你可以像这样设置切片的索引:

test_ind=int(Data.shape[0]*0.3)
train_ind=Data.shape[0]-test_ind

Data[:train_ind,:4]将是您的训练数据 Data[train_ind:,:4]将是您的测试数据