如何在rllib

时间:2019-11-07 02:16:25

标签: lstm reinforcement-learning ray rllib

我正在尝试在rllib中使用Marwil训练lstm策略。我找不到有关如何为该问题设置批次的任何示例。如果不使用lstm组件,我可以按照此处的说明训练marwil模型。

https://ray.readthedocs.io/en/latest/rllib-offline.html

但是,当我尝试添加lstm组件时,出现错误消息

“如果定义了状态输入,则必须给出seq_lens张量”

这意味着我需要传递RNN长度序列。足够公平,我定义

prev_actions->情节中所有N点的二十个过去动作的列表 prev_rewards->剧集中所有N点的二十个过去奖励列表 prev_observations->情节中所有N点的二十个过去观测的列表 seq_lens->剧集中所有N点的[20,20,20,...,20]

在批处理构建器API中,但是一旦我尝试运行Marwil训练器,我仍然会收到错误消息

如果定义了状态输入,必须给出

seq_lens张量

有人对此有任何见识吗?

谢谢!

0 个答案:

没有答案