我正在使用openai健身房提供的CartPole-v0。我注意到我的程序从未获得更高的200分。在某些时候,它停留在200而不再是。我想知道在openai健身房是否有任何可能错过的配置。有没有人发现这个问题?
答案 0 :(得分:2)
{
"authMode": {},
"range": {
"columnStart": 1,
"rowStart": 1,
"rowEnd": 1,
"columnEnd": 1
},
"source": {},
"user": {
"nickname": "### name ###",
"email": "### email ###"
}
}
会为您的代理人“活着”的每一步提供$ip = $_SERVER['REMOTE_ADDR'];
奖励。
使用以下代码行注册环境:
checkHasFile() {
var i = 0;
for (var value of this.files.values()) {
i++;
}
return i;
},
,在当前版本的存储库中,可以找到here。
CartPole-v0
表示剧集在1.0
步后自动终止。因此,您可以获得的最高分是register(
id='CartPole-v0',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=200,
reward_threshold=195.0,
)
。