应用错误收集

PPO剪辑如何将rt保持在[1-e，1 + e]之内？

时间：2019-06-05 11:13:06

标签： deep-learning reinforcement-learning

在PPO论文中，他们说ppo削波损耗使rt保持在[1-E，1 + E]之间，但是当rt = 1 + E且Advantage> 0时，损耗仍然是（1+ E）*优点，因此不会进一步训练（时代）将rt推出[1-E，1 + E]吗？ rt移出[1-E，1 + E]时rt不会进一步增加吗？

enter image description here

0 个答案:

没有答案