是否有一种方法可以遍历每个状态,迫使环境进入该状态,然后采取步骤,然后使用返回的“信息”字典查看所有可能的后继状态?
或者是一种更简单的方法来为每个状态(可能是隐藏的位置)恢复所有可能的后继状态?
我在网上看到名为MuJoKo的东西或类似的东西具有set_state函数,但是我不想创建新的环境,我只想设置openAi体育馆已经提供的环境。
上下文:尝试实现拓扑顺序值迭代,这需要制作一个图,其中每个状态都具有任何动作都可以过渡到的任何状态的边缘。
我意识到很明显,在某些游戏中,虽然没有提供,但是对于那些存在的游戏,有没有办法?
(除了运行游戏并在到达所有状态并看到所有内容之前,我尚未进入自己所处状态的所有步骤的蛮力方法,这取决于游戏的永久性)
这是我第一次使用OpenAi体育馆,因此请尽可能详细地进行解释。例如,我不知道什么是包装纸。
谢谢!
答案 0 :(得分:0)
否,OpenAI健身房没有提供所有可能的后继状态的方法。通常,这就是使用OpenAI Gym创建算法的关键。您正在培训代理以了解其行动的结果;如果它能够展望未来并知道其行动的结果是什么,那便会破坏目标。
您描述的蛮力方法可能是完成所描述内容的最简单方法。