应用错误收集

因此，我最近在PPO上观看了此视频，并希望使用PPO升级用PyTorch编写的演员评论算法，但是我不确定如何计算新的参数/ theta。

本文给出的算法：

说要运行pi_theta_old，计算优势估算并优化目标，但是由于我们尚未更新pi_theta，我们如何为目标计算policy_old？

编辑：对于所有寻求明确答案的人，我已经在Stack Exchange AI（https://ai.stackexchange.com/questions/8212/ppo-trpo-implementation）上发布了相同的问题。