我不明白将lambda乘积和theta平方和加到成本函数上如何减少数据集中的过拟合量。有人可以解释吗?
答案 0 :(得分:1)
想象两个极端的情况:
真正的训练应该在这两种情况之间进行,以得到很好的概括。良好的概括有助于对看不见的测试数据获得更实际的预测。
当您尝试最小化成本函数时,您会因训练集上的每个错误预测而对机器进行惩罚。为了克服这种惩罚,并且在大多数情况下要比获得真正的概括更容易,机器宁愿记住训练中的所有内容,从而减少损失并减少惩罚。当您提供复杂的网络(训练参数很多,W大时又称为AKA)时,这很容易发生
为防止机器上的这种花招,我们强迫机器降低成本,但同时也使条件不使用非常大的参数集。这是进行正则化的一种方法。