PPO / TRPO实施

时间:2018-10-02 06:32:21

标签: machine-learning deep-learning pytorch reinforcement-learning

因此,我最近在PPO上观看了此视频,并希望使用PPO升级用PyTorch编写的演员评论算法,但是我不确定如何计算新的参数/ theta。

本文给出的算法:
enter image description here
说要运行pi_theta_old,计算优势估算并优化目标,但是由于我们尚未更新pi_theta,我们如何为目标计算policy_old

编辑:对于所有寻求明确答案的人,我已经在Stack Exchange AI(https://ai.stackexchange.com/questions/8212/ppo-trpo-implementation)上发布了相同的问题。

0 个答案:

没有答案