在OpenAI论文“进化策略作为强化学习的可扩展替代方案”中,第3页中的等式是如何得出的?
答案 0 :(得分:0)
它不是"派生的,"从某种意义上说,这个方程并不是本文前面提到的方程式的自然进展。
该公式演示了作者如何选择应用随机梯度上升。它是他们使用的算法的数学表示。
正好在这个等式之下,他们解释了它是如何工作的:
结果算法重复执行两个阶段:1) 随机扰动政策参数和评估 通过在环境中运行一集来生成参数,以及 2)结合这些事件的结果,计算随机性 梯度估计,并更新参数。
从一开始就重新启动纸张并非常缓慢而仔细地阅读可能会有所帮助。如果您遇到任何有意义的事情,请查阅并不要继续阅读论文,直到您理解作者试图告诉您的内容为止。