为什么RMSProp被认为是“漏洞”?

时间:2017-07-05 22:29:14

标签: machine-learning artificial-intelligence reinforcement-learning gradients

LEN

我对上述评论的措辞感到困惑,他们在谈论RMSProp优化器的“漏洞”平方和。到目前为止,我已经能够发现这条特殊的线条是来自Andrej Karpathy的Deep Reinforcement Learning: Pong from Pixels的复制品,并且RMSProp是unpublished optimizer proposed by Hinton in one of his Coursera Classes。从link 2查看RMSProp的数学计算,很难弄清楚其中任何一个是“漏洞”。

有人会碰巧知道为什么用这种方式描述RMSProp吗?

1 个答案:

答案 0 :(得分:4)

RMsprop保持指数平均衰减的平均衰减平均值。 “泄漏”的措辞(但不幸)指的是之前的估计中有多少“泄漏”到当前的“泄漏”,因为

E[g^2]_t := 0.99 E[g^2]_{t-1} + 0.01 g^2_t
            \_______________/   \________/
               "leaking"         new data