OpenAI健身房CartPole-v0第200步中断是否对代理商不公平?

时间:2017-06-27 13:21:11

标签: reinforcement-learning openai-gym

这个OpenAI environment只为一个代理人提供位置和速度,因此代理人不能在开始时分辨好状态(直立杆,低速),这应该具有高价值和良好状态(直立杆,低速)接近结束(第200步),由于环境迫切关闭,对于代理人的恐怖和混乱,实际上具有非常低的预期奖励。

我想知道这对普通强化算法有多大影响。

P.S。

我已经在我的(非常简单的)DQN算法中实现了体验重放,看起来,在训练中忽略时间> 150的步骤实际上效果更好。但是,算法的性能非常嘈杂,所以我需要更多的实验。

另外,我偶然发现了environment,这似乎与问题有关。安全(在"纸夹最大化"感觉)AI应该对关闭无动于衷。

0 个答案:

没有答案