我创建了一个具有连续二维动作空间的健身房环境。
在__init__(self)
方法中,我提供了空格限制,让我们用[p; -2; 2]
high = 2.*np.ones(2, dtype=float32);
self.action_space = spaces.box(-high, high, dtype=float32)
但是,使用Keras-rl库中提供的DDPGAgent的actor进行采样几乎总是会产生超出这些界限的动作……实际上距离它们很远。
在step(self, action)
方法中剪切动作无济于事,因为采样的动作记录在体验重放中,而不是剪切的动作中。
我错过了什么吗?
感谢您的帮助!