使用PG生成数据

Question

RAY-RLLIB库-使用脱机批处理数据估计DQN模型。模型无法学习。 Episode_len_mean：.nan，用于CartPole示例以及个人域专用数据集

Ubuntu 射线库-RLIB DQN 离线环境：-尝试使用Cartpole-v0以及自定义环境示例。

episode_len_mean：.nan Episode_reward_max：.nan episode_reward_mean：.nan Episode_reward_min：.nan episodes_this_iter：0 episodes_total：0

使用PG生成数据

rllib train --run=PG --env=CartPole-v0 --config='{"output": "/tmp/cartpole-out", "output_max_file_size": 5000000}' --stop='{"timesteps_total": 100000}'

关于离线数据的训练模型

rllib train --run=DQN --env=CartPole-v0 --config='{"input": "/tmp/cartpole-out","input_evaluation": ["is", "wis"],"soft_q": true, "softmax_temp": 1.0}'

预期：- episode_len_mean：数值 Episode_reward_max：数值 Episode_reward_mean：数值 Episode_reward_min：数值

实际结果（张量板也未观察到改善）：- episode_len_mean：.nan Episode_reward_max：.nan episode_reward_mean：.nan episode_reward_min：.nan

Answer 1

我或多或少都遇到了同样的问题，这与情节没有结束有关，因为我没有在step函数中正确设置“ done”值。在剧集“完成”之前，Ray不会计算指标。就我而言，我必须在环境 init 函数中指定一个称为self.count_steps的计数器，并在每一步中递增。

$arrayWebsitesName = $deploymentResult.Outputs.websitesname.Value
$ids = $arrayWebsitesName.ToString() | ConvertFrom-Json
$ids[0].name
$ids[1].name

RAY-RLLIB-无法使用离线样本批处理训练DQN-Episode_len_mean：.nan值

使用PG生成数据

关于离线数据的训练模型

1 个答案: