应用错误收集

A3C和PPO在强化学习策略梯度方法中有何相似之处？

时间：2018-07-25 03:40:24

标签： reinforcement-learning

是否有任何简单的方法可以将PPO的属性与A3C方法合并？ A3C方法运行许多parrel actor并优化参数。我正在尝试将PPO与A3C合并。

1 个答案:

答案 0 :(得分：1)

PPO具有内置机制（替代剪切目标功能），可防止大的梯度更新，并且在大多数连续控制环境中通常优于A3C。

为了使PPO享受A3C等并行计算的优势，必须采用分布式PPO（DPPO）。

查看下面的链接以查找有关DPPO的更多信息。

Pseudo code from the original DeepMind paper

Original DeepMind paper: Emergence of Locomotion Behaviours in Rich Environments

如果您打算使用Tensorflow在Python中实现DPPO代码，我建议您尝试Ray进行分布式执行。