我正在尝试创建一个神经网络来玩仿真的atari游戏“ BreakoutDeterministic”。游戏的动作空间为[0,1,2,3]。
输入时
frame, reward, is_done, _ = env.step(env.action_space.sample())
游戏将播放,并且“ is_done”变量最终将设置为True
(游戏结束时)
输入时
frame, reward, is_done, _ = env.step(3)
游戏将结束,但完成时不会设置为True
。相反,我必须手动结束该过程。
关于这种情况发生的原因以及如何解决的任何解释?
完整代码:
import gym
env = gym.make('BreakoutDeterministic-v4')
frame = env.reset()
env.render()
is_done = False
while not is_done:
frame, reward, is_done, _ = env.step(env.action_space.sample())
#frame, reward, is_done, _ = env.step(3)
env.render()