应用错误收集

我正在阅读I. Goodfellow，Y。Bengio，A。Courville的书“深度学习”。在第242页，他们讨论了添加到MLP权重的噪声，其表现为正则化。

J是无噪声问题的最小平方代价函数，我们训练一个MLP（权重W来优化）从（x，y）训练集到预测值。

结论是对于小eta，通过增加权重噪声（具有协方差eta Id）来最小化成本函数等效于J的最小化以及额外的正则化项：

eta E [|| grad_W yhat（x）|| ^ 2]

然而，我无法理解如何从（7.32）获得这个结论[即从这个新问题的成本函数的定义]。我尝试使用相对于权重W的1阶泰勒开发，但我无法得出结论。

有人知道详细的微积分来获得这个结果（使用相同的符号）吗？

[我没有足够的声誉来发布图片，我希望这篇文章足够直接理解。]