RAY-RLLIB-无法使用离线样本批处理训练DQN-Episode_len_mean:.nan值

时间:2019-04-16 11:40:05

标签: offline reinforcement-learning ray

RAY-RLLIB库-使用脱机批处理数据估计DQN模型。模型无法学习。 Episode_len_mean:.nan,用于CartPole示例以及个人域专用数据集

Ubuntu 射线库-RLIB DQN 离线 环境:-尝试使用Cartpole-v0以及自定义环境示例。

episode_len_mean:.nan Episode_reward_max:.nan episode_reward_mean:.nan Episode_reward_min:.nan episodes_this_iter:0 episodes_total:0

使用PG生成数据

rllib train --run=PG --env=CartPole-v0 --config='{"output": "/tmp/cartpole-out", "output_max_file_size": 5000000}' --stop='{"timesteps_total": 100000}'

关于离线数据的训练模型

rllib train --run=DQN --env=CartPole-v0 --config='{"input": "/tmp/cartpole-out","input_evaluation": ["is", "wis"],"soft_q": true, "softmax_temp": 1.0}'

预期:- episode_len_mean:数值 Episode_reward_max:数值 Episode_reward_mean:数值 Episode_reward_min:数值

实际结果(张量板也未观察到改善):- episode_len_mean:.nan Episode_reward_max:.nan episode_reward_mean:.nan episode_reward_min:.nan

1 个答案:

答案 0 :(得分:0)

我或多或少都遇到了同样的问题,这与情节没有结束有关,因为我没有在step函数中正确设置“ done”值。在剧集“完成”之前,Ray不会计算指标。就我而言,我必须在环境 init 函数中指定一个称为self.count_steps的计数器,并在每一步中递增。

$arrayWebsitesName = $deploymentResult.Outputs.websitesname.Value
$ids = $arrayWebsitesName.ToString() | ConvertFrom-Json
$ids[0].name
$ids[1].name