如何将强化学习环境向量化?

时间:2020-01-02 20:38:41

标签: pytorch vectorization reinforcement-learning

我有一个符合OpenAI环境API的Python类,但是它是以非向量化形式编写的,即,它每步接收一个输入操作并每步返回一个奖励。如何对环境进行矢量化处理?我在GitHub上找不到任何明确的解释。

1 个答案:

答案 0 :(得分:1)

您可以编写一个自定义类,该类在内部基本元组上进行迭代,同时维护基本的Gym API。实际上,会有一些差异,因为底层环境不会在同一时间步终止。因此,将标准stepreset函数合并到 一种称为step的方法。这是一个示例:

class VectorEnv:
    def __init__(self, make_env_fn, n):
        self.envs = tuple(make_env_fn() for _ in range(n))

    # Call this only once at the beginning of training (optional):
    def seed(self, seeds):
        assert len(self.envs) == len(seeds)
        return tuple(env.seed(s) for env, s in zip(self.envs, seeds))

    # Call this only once at the beginning of training:
    def reset(self):
        return tuple(env.reset() for env in self.envs)

    # Call this on every timestep:
    def step(self, actions):
        assert len(self.envs) == len(actions)
        return_values = []
        for env, a in zip(self.envs, actions):
            observation, reward, done, info = env.step(a)
            if done:
                observation = env.reset()
            return_values.append((observation, reward, done, info))
        return tuple(return_values)

    # Call this at the end of training:
    def close(self):
        for env in self.envs:
            env.close()

然后您可以像这样实例化它:

import gym
make_env_fn = lambda: gym.make('CartPole-v0')
env = VectorEnv(make_env_fn, n=4)

调用step时,您的代理人必须做一点记账才能处理返回值的元组。这也是为什么我更喜欢将函数make_env_fn传递给__init__的原因,因为添加gym.wrappers.Monitor之类的包装程序很容易,该包装程序可以自动自动跟踪每个环境的统计信息。