应用错误收集

我创建了一个具有连续二维动作空间的健身房环境。

在__init__(self)方法中，我提供了空格限制，让我们用[p; -2; 2]

high = 2.*np.ones(2, dtype=float32);

self.action_space = spaces.box(-high, high, dtype=float32)

但是，使用Keras-rl库中提供的DDPGAgent的actor进行采样几乎总是会产生超出这些界限的动作……实际上距离它们很远。

在step(self, action)方法中剪切动作无济于事，因为采样的动作记录在体验重放中，而不是剪切的动作中。

我错过了什么吗？

感谢您的帮助！