python - RL算法成功播放了openai健身房CartPole-v1，但在atari Boxing-ram-v0上失败 - Thinbug

RL算法成功播放了openai健身房CartPole-v1，但在atari Boxing-ram-v0上失败

时间：2020-05-13 01:20:20

标签： python reinforcement-learning

我最近实现了ppo算法他在CartPole-v1上表现出色但它在Boxing-ram-v0中不起作用有人可以解释吗？

this is my repo

this is the train score history in CartPole-v1

and behavior in Boxing-ram-v0

有人可以解释吗？

1 个答案:

答案 0 :(得分：0)

我认为您的模型存在的问题是，对于所有时间步长，座席操作几乎都是相同的。这可能是由于神经网络变得饱和。在CartPole环境中，所有尺寸的状态都在[-，1,1]范围内，但在Boxing-ram-v0环境中则不在。因此，在将状态存储到缓冲区之前，您应该将状态标准化为[-1,1]范围。

希望这会有所帮助！