我正在阅读I. Goodfellow,Y。Bengio,A。Courville的书“深度学习”。 在第242页,他们讨论了添加到MLP权重的噪声,其表现为正则化。
J是无噪声问题的最小平方代价函数,我们训练一个MLP(权重W来优化)从(x,y)训练集到预测值。
结论是对于小eta,通过增加权重噪声(具有协方差eta Id)来最小化成本函数等效于J的最小化以及额外的正则化项:
eta E [|| grad_W yhat(x)|| ^ 2]
然而,我无法理解如何从(7.32)获得这个结论[即从这个新问题的成本函数的定义]。我尝试使用相对于权重W的1阶泰勒开发,但我无法得出结论。
有人知道详细的微积分来获得这个结果(使用相同的符号)吗?
[我没有足够的声誉来发布图片,我希望这篇文章足够直接理解。]