开设Openai体育馆

时间:2018-08-30 23:59:32

标签: neural-network lstm rnn openai-gym

我被赋予了建立一个开放式玩具健身房的任务,这只能由具有记忆力的特工来解决。我给了一个带有两扇门的示例,在时间t = 0时,我显示为1或-1。在t = 1时,我可以移至正确的门并将其打开。

有人知道我将如何开始吗?我想证明a2c或ppo可以使用lstm策略解决此问题。我该如何设置环境等?

1 个答案:

答案 0 :(得分:0)

要创建Gym格式的新环境,它应具有Gym.core文件中提到的5个功能。

https://github.com/openai/gym/blob/e689f93a425d97489e590bba0a7d4518de0dcc03/gym/core.py#L11-L35

将其逐步放置-

  1. 定义环境的观察空间和行动空间,最好使用Gym.spaces模块。

  2. 写下逐步函数,该函数执行代理的作用并返回一个包含以下内容的4个元组-来自环境的下一组观察结果,奖励, 完成-指示该情节是否结束的布尔值,以及一些您需要的额外信息。

  3. 为环境编写一个重置函数,以将情节重新初始化为随机开始状态,并返回一个类似于step的4元组。

这些功能足以在您的环境中运行RL代理。 您可以根据需要跳过渲染,种子和关闭功能。

对于已定义的任务,可以使用Discrete(2)对观察和动作空间进行建模。第一扇门为0,第二扇门为1。

  1. 重置将在观察中返回哪个门具有奖励。
  2. 然后代理将选择门-0或1。
  3. 然后通过调用step(action)执行环境步骤,该步骤将返回座席的奖励和完成标志为true-表示情节结束。

坦率地说,您描述的问题对于任何强化学习算法来说似乎都太简单了,但是我想您已经提供了一个例子。 记住更长的视野通常比较困难。

您可以阅读他们的文档和玩具环境,以了解如何创建游戏环境。