应用错误收集

时间：2018-05-25 04:38:59

标签： machine-learning reinforcement-learning evolutionary-algorithm

在OpenAI论文“进化策略作为强化学习的可扩展替代方案”中，第3页中的等式是如何得出的？

答案 0 :(得分：0)

它不是＆＃34;派生的，＆＃34;从某种意义上说，这个方程并不是本文前面提到的方程式的自然进展。

该公式演示了作者如何选择应用随机梯度上升。它是他们使用的算法的数学表示。

正好在这个等式之下，他们解释了它是如何工作的：

结果算法重复执行两个阶段：1）随机扰动政策参数和评估通过在环境中运行一集来生成参数，以及 2）结合这些事件的结果，计算随机性梯度估计，并更新参数。

从一开始就重新启动纸张并非常缓慢而仔细地阅读可能会有所帮助。如果您遇到任何有意义的事情，请查阅并不要继续阅读论文，直到您理解作者试图告诉您的内容为止。