LEN
我对上述评论的措辞感到困惑,他们在谈论RMSProp优化器的“漏洞”平方和。到目前为止,我已经能够发现这条特殊的线条是来自Andrej Karpathy的Deep Reinforcement Learning: Pong from Pixels的复制品,并且RMSProp是unpublished optimizer proposed by Hinton in one of his Coursera Classes。从link 2查看RMSProp的数学计算,很难弄清楚其中任何一个是“漏洞”。
有人会碰巧知道为什么用这种方式描述RMSProp吗?
答案 0 :(得分:4)
RMsprop保持指数平均衰减的平均衰减平均值。 “泄漏”的措辞(但不幸)指的是之前的估计中有多少“泄漏”到当前的“泄漏”,因为
E[g^2]_t := 0.99 E[g^2]_{t-1} + 0.01 g^2_t
\_______________/ \________/
"leaking" new data