我分别将数据集分为80-20个口粮的训练和测试。我用测试数据集进行了预测和评估。我的问题是,在重新整理整个数据集之前,我们是否可以使用整个数据集评估和预测模型。我们能做到吗?如果没有,为什么我们不应该这样做呢?这样是怎么回事?
答案 0 :(得分:0)
数据侦听是您正在寻找的快速答案。 换句话说,如果先对100%的数据进行训练,那么您的模型在测试数据上的表现似乎会更好。该模型将成为过度拟合的模型,该模型基本上可以更准确地预测可见数据,但是对于任何形式的看不见的测试数据都无法做到。
答案 1 :(得分:0)
您可以执行此操作,但是会导致模型过拟合。您可以尝试使用k折交叉验证方法。
答案 2 :(得分:0)
如果将整个数据集用于训练,则该模型将适合数据中的所有差异(过度拟合)。结果,模型在相似数据上的性能将很高。但是,与训练数据集相比,该模型在分布不同的看不见数据上将表现出较低的性能。防止这种情况的一种方法是:a)将您的数据分为训练,验证和测试数据集(请参阅下面的注释),b)对训练和验证分组应用k倍交叉验证,c)验证您的性能第三部分(测试数据集)上来自步骤b的模型。 注意:分割的命名尚无共识。一些资料来源将其命名为训练验证测试,而另一些资料则使用训练测试验证。