我正在尝试在rllib中使用Marwil训练lstm策略。我找不到有关如何为该问题设置批次的任何示例。如果不使用lstm组件,我可以按照此处的说明训练marwil模型。
https://ray.readthedocs.io/en/latest/rllib-offline.html
但是,当我尝试添加lstm组件时,出现错误消息
“如果定义了状态输入,则必须给出seq_lens张量”
这意味着我需要传递RNN长度序列。足够公平,我定义
prev_actions->情节中所有N点的二十个过去动作的列表 prev_rewards->剧集中所有N点的二十个过去奖励列表 prev_observations->情节中所有N点的二十个过去观测的列表 seq_lens->剧集中所有N点的[20,20,20,...,20]
在批处理构建器API中,但是一旦我尝试运行Marwil训练器,我仍然会收到错误消息
如果定义了状态输入,必须给出seq_lens张量
有人对此有任何见识吗?
谢谢!