我最近一直在尝试健身房(和RL),健身房的一个特定行为激起了我的兴趣。为什么即使游戏结束,OpenAI Gym也会获得奖励0?例如,在Breakout-v0中,当花费所有五个生命时,env.step将返回done=True
和reward=0
。难道我们不应该通过返回负面强化/奖励来通知经纪人这样的状态是不利的吗?
此外,对于环境中的每一步(仍然是Breakout-v0),如果当时没有砖/块被销毁,它将返回奖励0。那么代理如何能够区分正常操作和错误操作?
答案 0 :(得分:1)
问题1:done == True
时奖励无关紧要。您应该在env.reset()
时调用done
来重置环境。
问题2:奖励是轨迹整个生命周期的折扣金额。