“进化策略作为强化学习的可扩展替代方案”中的等式是如何得出的?

时间:2018-05-25 04:38:59

标签: machine-learning reinforcement-learning evolutionary-algorithm

在OpenAI论文“进化策略作为强化学习的可扩展替代方案”中,第3页中的等式是如何得出的?

1]

1 个答案:

答案 0 :(得分:0)

它不是"派生的,"从某种意义上说,这个方程并不是本文前面提到的方程式的自然进展。

该公式演示了作者如何选择应用随机梯度上升。它是他们使用的算法的数学表示。

正好在这个等式之下,他们解释了它是如何工作的:

  

结果算法重复执行两个阶段:1)   随机扰动政策参数和评估   通过在环境中运行一集来生成参数,以及   2)结合这些事件的结果,计算随机性   梯度估计,并更新参数。

从一开始就重新启动纸张并非常缓慢而仔细地阅读可能会有所帮助。如果您遇到任何有意义的事情,请查阅并不要继续阅读论文,直到您理解作者试图告诉您的内容为止。