标签: python pytorch reinforcement-learning
我正在针对许多情节训练像DDPG这样的演员关键强化学习算法。但是,每个步骤的时间首先增加,然后保持稳定,如下图所示。
我首先以为我忘记了放到重播缓冲区(大小为1e6的双端队列元素)中的.detach()/。item()元素,因为它在其他一些stackoverflow帖子中列出了,但事实并非如此。以前有人遇到过类似情况,可以指出我在哪里寻找原因吗?