应用错误收集

这个OpenAI environment只为一个代理人提供位置和速度，因此代理人不能在开始时分辨好状态（直立杆，低速），这应该具有高价值和良好状态（直立杆，低速）接近结束（第200步），由于环境迫切关闭，对于代理人的恐怖和混乱，实际上具有非常低的预期奖励。

我想知道这对普通强化算法有多大影响。

P.S。

我已经在我的（非常简单的）DQN算法中实现了体验重放，看起来，在训练中忽略时间> 150的步骤实际上效果更好。但是，算法的性能非常嘈杂，所以我需要更多的实验。

另外，我偶然发现了environment，这似乎与问题有关。安全（在＆＃34;纸夹最大化＆＃34;感觉）AI应该对关闭无动于衷。