我是否要将训练集中使用的数据排除在运行predict()模型之外?

时间:2017-05-10 18:52:39

标签: r machine-learning training-data

我对机器学习很新。我有一个关于运行预测用于训练集的数据的问题。 以下是详细信息:我获取了部分初始数据集,并将该部分分为80%(火车)和20%(测试)。我在80%的训练集上训练了模型

model <- train(name ~ ., data = train.df, method = ...)

然后在20%的测试数据上运行模型:

predict(model, newdata = test.df, type = "prob")

现在我想预测在初始数据集上使用我训练的模型,其中还包括训练部分。我是否需要排除用于培训的部分?

1 个答案:

答案 0 :(得分:0)

当您向第三方报告机器学习模型的有效性时,您始终会报告您在训练(和验证)中未使用的数据集的准确性。

您可以报告所有数据集的准确度数字,但始终包含此数据集还包括用于训练机器学习算法的数据分区的备注。

我们需要注意确保您的算法未在训练集上配备:https://en.wikipedia.org/wiki/Overfitting