Question

import pandas as pd
import statsmodels.formula.api as sm
train = pd.read_csv('/Users/..../Desktop/train.csv')
from sklearn.cross_validation import train_test_split

所以我坚持如何在火车/测试中进行70/30分裂...这是基于使用ipython进行kaggle工作薪水预测

Answer 1

如果Data将所有数据集（独立人员和家属）保存在一个numpy数组中：以这种方式

Data=([[1, 2, 3, 430],[...]...])

3个独立人士和一个受抚养人

你可以像这样设置切片的索引：

test_ind=int(Data.shape[0]*0.3)
train_ind=Data.shape[0]-test_ind

Data[:train_ind,:4]将是您的训练数据 Data[train_ind:,:4]将是您的测试数据

将数据拆分为训练和测试集

1 个答案: