过度拟合的模型在测试集中表现更好

时间:2018-11-09 07:36:21

标签: machine-learning statistics deep-learning

我问了这个问题here,但似乎人们在那里并不活跃。

同一任务有两种模型:

模型_1::训练集的准确性为98%,测试集的准确性为54%。
model_2:训练集的准确度为48%,测试集的准确度为47%。

根据上面的统计数据,我们可以说 model_1 超出了训练集。
第一季度:我们可以说 model_2 不符合要求吗?
第二季度:如果 model_1 在测试集上的表现优于 model_2 ,为什么是错误的选择?

3 个答案:

答案 0 :(得分:3)

首先有一些初步要点:

了解任务是否为二进制任务很有用。在这种情况下,您获得的性能非常接近随机选择。因此,基本上您的模型不是从训练集中学习。

另一个有用的信息是知道两个模型的训练集是否相同(相同的分裂测试/训练)。由于样本分裂,两个模型之间的7%差异可能只是随机噪声。

最后,要声明model_2比model_1更好,您需要更深入的分析。两种模型之间的差异很可能没有统计学意义。

模型过度拟合的事实告诉您,模型在测试集上的推广不充分。通过更好地选择设计,您可以提高性能,并使系统对看不见的样品更坚固。不使用过度拟合系统的原因是,在该特定测试/验证集上可达到54%的准确度,并且由于缺乏通用性和模型的健壮性,在新的看不见的值上可能会有很大差异。

答案 1 :(得分:0)

第一季度,是, model_2 欠佳。

第二季度,因为 model_2 而不是一般化,只是记住答案。因此,训练和测试集之间的差异越大,测试集的性能就会越差。

答案 2 :(得分:0)

引用Ian Goodfellow's book, Chapter 5.2

  

我们必须记住,虽然简单的功能更有可能   概括(在训练和测试错误之间有很小的差距),我们   必须仍然选择足够复杂的假设以实现低   训练错误。