标签: python pytorch reinforcement-learning policy-gradient-descent
我在自建任务中实施PPO2强化学习,并且总是遇到代理似乎已接近成熟,然后突然在思想上丧失其性能并且无法保持其稳定性能的情况。我不知道什么是合适的词。
我只是想知道造成如此灾难性的性能下降的原因是什么?有任何提示或提示吗?
非常感谢
learningprocess1 learningprocess2
答案 0 :(得分:0)
我猜你的奖励函数没有上限,在某些边缘情况下会产生极高的负奖励。
防止这种情况发生的两件事是:
大多数时候这没什么大不了的,但如果你不走运,你的环境甚至可能产生 NaN 值,这些值会破坏你的网络