A3C和PPO在强化学习策略梯度方法中有何相似之处?

时间:2018-07-25 03:40:24

标签: reinforcement-learning

是否有任何简单的方法可以将PPO的属性与A3C方法合并? A3C方法运行许多parrel actor并优化参数。我正在尝试将PPO与A3C合并。

1 个答案:

答案 0 :(得分:1)

PPO具有内置机制(替代剪切目标功能),可防止大的梯度更新,并且在大多数连续控制环境中通常优于A3C。

为了使PPO享受A3C等并行计算的优势,必须采用分布式PPO(DPPO)。

查看下面的链接以查找有关DPPO的更多信息。

Pseudo code from the original DeepMind paper

Original DeepMind paper: Emergence of Locomotion Behaviours in Rich Environments

如果您打算使用Tensorflow在Python中实现DPPO代码,我建议您尝试Ray进行分布式执行。