什么是培训和测试数据集

时间:2017-09-15 18:36:07

标签: machine-learning dataset data-science kaggle

我开始讨价还价。

我刚刚参加了各种数据科学和机器学习竞赛

我已经看到,在每次比赛中,他们都上传了培训数据测试数据原始数据

有人可以解释一下这些是什么以及我们如何在解决问题时使用这些数据集。

3 个答案:

答案 0 :(得分:1)

培训数据:用于培训AI 测试数据:用于评估使用以前训练数据的AI的强度 原始数据:嗯,这是原始数据。

在进行机器学习时,必须以某种方式训练AI。这就是为什么我们打破数据,并给AI一个原始数据(训练数据)的子集,以便它可以学习。我们用测试数据测试它的知识,然后一旦完成,我们就可以提供原始数据,看看它是如何做的。

答案 1 :(得分:1)

在ML中,原始数据集分为训练集和测试集(有时也是交叉验证集)。

训练集:     用于拟合算法参数的数据集。

测试集:     数据集用于评估算法参数的准确程度。

训练集,测试组分别通常为80%,20%或70%,30%。 建议在进行拆分之前将原始数据集随机化。 永远记住,在ML中,用于拟合参数的数据集的错误总是会更低。切勿使用训练集评估算法。

答案 2 :(得分:1)

评估受过训练的模型对看不见的数据的执行情况, 你必须将原始数据分成不同的训练和测试集。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test= train_test_split(features_all,pred_var,test_size=0.3, random_state=42)

通过这种方式,您可以将要素和y数组随机分成30%的测试数据和70%的训练数据。然后,您拟合回归模型,如下所示

from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train,y_train) # fit regressor to training data
y_pred = reg.predict(X_test) # predict on test data

希望得到这个帮助。