为什么openai健身房会为终端州提供零奖励?

时间:2018-03-10 16:26:43

标签: python reinforcement-learning q-learning openai-gym

我最近一直在尝试健身房(和RL),健身房的一个特定行为激起了我的兴趣。为什么即使游戏结束,OpenAI Gym也会获得奖励0?例如,在Breakout-v0中,当花费所有五个生命时,env.step将返回done=Truereward=0。难道我们不应该通过返回负面强化/奖励来通知经纪人这样的状态是不利的吗?

此外,对于环境中的每一步(仍然是Breakout-v0),如果当时没有砖/块被销毁,它将返回奖励0。那么代理如何能够区分正常操作和错误操作?

1 个答案:

答案 0 :(得分:1)

问题1:done == True时奖励无关紧要。您应该在env.reset()时调用done来重置环境。

问题2:奖励是轨迹整个生命周期的折扣金额。