因此,我最近在PPO上观看了此视频,并希望使用PPO升级用PyTorch
编写的演员评论算法,但是我不确定如何计算新的参数/ theta。
本文给出的算法:
说要运行pi_theta_old
,计算优势估算并优化目标,但是由于我们尚未更新pi_theta
,我们如何为目标计算policy_old
?
编辑:对于所有寻求明确答案的人,我已经在Stack Exchange AI(https://ai.stackexchange.com/questions/8212/ppo-trpo-implementation)上发布了相同的问题。