我被赋予了建立一个开放式玩具健身房的任务,这只能由具有记忆力的特工来解决。我给了一个带有两扇门的示例,在时间t = 0时,我显示为1或-1。在t = 1时,我可以移至正确的门并将其打开。
有人知道我将如何开始吗?我想证明a2c或ppo可以使用lstm策略解决此问题。我该如何设置环境等?
答案 0 :(得分:0)
要创建Gym格式的新环境,它应具有Gym.core文件中提到的5个功能。
https://github.com/openai/gym/blob/e689f93a425d97489e590bba0a7d4518de0dcc03/gym/core.py#L11-L35
将其逐步放置-
定义环境的观察空间和行动空间,最好使用Gym.spaces模块。
写下逐步函数,该函数执行代理的作用并返回一个包含以下内容的4个元组-来自环境的下一组观察结果,奖励, 完成-指示该情节是否结束的布尔值,以及一些您需要的额外信息。
为环境编写一个重置函数,以将情节重新初始化为随机开始状态,并返回一个类似于step的4元组。
这些功能足以在您的环境中运行RL代理。 您可以根据需要跳过渲染,种子和关闭功能。
对于已定义的任务,可以使用Discrete(2)对观察和动作空间进行建模。第一扇门为0,第二扇门为1。
坦率地说,您描述的问题对于任何强化学习算法来说似乎都太简单了,但是我想您已经提供了一个例子。 记住更长的视野通常比较困难。
您可以阅读他们的文档和玩具环境,以了解如何创建游戏环境。