标签: deep-learning reinforcement-learning
在PPO论文中,他们说ppo削波损耗使rt保持在[1-E,1 + E]之间,但是当rt = 1 + E且Advantage> 0时,损耗仍然是(1+ E)*优点,因此不会进一步训练(时代)将rt推出[1-E,1 + E]吗? rt移出[1-E,1 + E]时rt不会进一步增加吗?
enter image description here