我在论文和文章中经常看到的关于欠配合/过度拟合的曲线是用于训练误差的下降曲线和用于测试误差的U形曲线,表示留在U形曲线底部的区域易发生拟合不足,并且该区域它的权利可能会过拟合。 为了找到最佳模型,我们可以测试每种配置(例如更改节点和层数)并比较测试误差值以找到最小点(通常通过交叉验证)。看起来直截了当且完美。
我们需要一个正则化器来实现这一点吗?这是我不确定是否对该主题理解得很好的东西。在我看来,如果我们可以测试不同的模型配置,则似乎不需要正则化器。正则化器发挥作用的唯一情况是当我们具有固定的模型配置(例如,固定的节点和层数)并且不想尝试其他配置时,因此我们使用正则化器通过强制其他模型参数来限制模型的复杂性(例如网络权重)降低到较低的值。这种观点正确吗?
但是,如果是对的,那么其背后的直觉是什么?首先,当使用正则化器时,我们事先不知道这种网络配置/复杂性是否使我们处于测试误差曲线最小值的右边或左边。它可能已经不合适,过度安装或不合适。抛开数学,为什么将权重设置为较低的值会导致网络更通用,并且减少了过度拟合?此方法与以前的沿测试损耗曲线求最小值的方法有何相似之处?正则化器在训练时也能完成工作,它对测试数据无法做任何事情。朝着最小测试错误的方向发展有什么帮助?