应用错误收集

我正在尝试在rllib中使用Marwil训练lstm策略。我找不到有关如何为该问题设置批次的任何示例。如果不使用lstm组件，我可以按照此处的说明训练marwil模型。

但是，当我尝试添加lstm组件时，出现错误消息

“如果定义了状态输入，则必须给出seq_lens张量”

这意味着我需要传递RNN长度序列。足够公平，我定义

prev_actions->情节中所有N点的二十个过去动作的列表 prev_rewards->剧集中所有N点的二十个过去奖励列表 prev_observations->情节中所有N点的二十个过去观测的列表 seq_lens->剧集中所有N点的[20，20，20，...，20]

在批处理构建器API中，但是一旦我尝试运行Marwil训练器，我仍然会收到错误消息

如果定义了状态输入，必须给出

seq_lens张量

有人对此有任何见识吗？

谢谢！