Question

LEN

我对上述评论的措辞感到困惑，他们在谈论RMSProp优化器的“漏洞”平方和。到目前为止，我已经能够发现这条特殊的线条是来自Andrej Karpathy的Deep Reinforcement Learning: Pong from Pixels的复制品，并且RMSProp是unpublished optimizer proposed by Hinton in one of his Coursera Classes。从link 2查看RMSProp的数学计算，很难弄清楚其中任何一个是“漏洞”。

有人会碰巧知道为什么用这种方式描述RMSProp吗？

Answer 1

RMsprop保持指数平均衰减的平均衰减平均值。 “泄漏”的措辞（但不幸）指的是之前的估计中有多少“泄漏”到当前的“泄漏”，因为

E[g^2]_t := 0.99 E[g^2]_{t-1} + 0.01 g^2_t
            \_______________/   \________/
               "leaking"         new data