RAY-RLLIB库-使用脱机批处理数据估计DQN模型。模型无法学习。 Episode_len_mean:.nan,用于CartPole示例以及个人域专用数据集
Ubuntu 射线库-RLIB DQN 离线 环境:-尝试使用Cartpole-v0以及自定义环境示例。
episode_len_mean:.nan Episode_reward_max:.nan episode_reward_mean:.nan Episode_reward_min:.nan episodes_this_iter:0 episodes_total:0
rllib train --run=PG --env=CartPole-v0 --config='{"output": "/tmp/cartpole-out", "output_max_file_size": 5000000}' --stop='{"timesteps_total": 100000}'
rllib train --run=DQN --env=CartPole-v0 --config='{"input": "/tmp/cartpole-out","input_evaluation": ["is", "wis"],"soft_q": true, "softmax_temp": 1.0}'
预期:- episode_len_mean:数值 Episode_reward_max:数值 Episode_reward_mean:数值 Episode_reward_min:数值
实际结果(张量板也未观察到改善):- episode_len_mean:.nan Episode_reward_max:.nan episode_reward_mean:.nan episode_reward_min:.nan
答案 0 :(得分:0)
我或多或少都遇到了同样的问题,这与情节没有结束有关,因为我没有在step函数中正确设置“ done”值。在剧集“完成”之前,Ray不会计算指标。就我而言,我必须在环境 init 函数中指定一个称为self.count_steps的计数器,并在每一步中递增。
$arrayWebsitesName = $deploymentResult.Outputs.websitesname.Value
$ids = $arrayWebsitesName.ToString() | ConvertFrom-Json
$ids[0].name
$ids[1].name