是否有任何简单的方法可以将PPO的属性与A3C方法合并? A3C方法运行许多parrel actor并优化参数。我正在尝试将PPO与A3C合并。
答案 0 :(得分:1)
PPO具有内置机制(替代剪切目标功能),可防止大的梯度更新,并且在大多数连续控制环境中通常优于A3C。
为了使PPO享受A3C等并行计算的优势,必须采用分布式PPO(DPPO)。
查看下面的链接以查找有关DPPO的更多信息。
Pseudo code from the original DeepMind paper
Original DeepMind paper: Emergence of Locomotion Behaviours in Rich Environments
如果您打算使用Tensorflow在Python中实现DPPO代码,我建议您尝试Ray进行分布式执行。