神经网络强化学习需要用于反向传播的下一状态传播

时间:2015-08-18 21:03:48

标签: neural-network reinforcement-learning torch lstm temporal-difference

我正在尝试构建一个包含卷积和LSTM(使用Torch库)的神经网络,通过Q-learning或Advantage-learning进行训练,这两者都需要在更新权重之前通过网络传播状态T + 1州T.

必须进行额外的传播会降低性能并且会降低性能,但不会坏;然而,问题是在这种情况下存在各种各样的状态。首先,反向传播的Torch实现具有一些效率快捷方式,这些快捷方式依赖于在前向传播之后立即发生的反向传播,这将导致额外的传播混乱。我可以通过让二级克隆网络共享权重值来解决这个问题,但我们遇到了第二个问题。

涉及LSTM的每次前向传播都是有状态的。当传播网络(T + 1)可能改变了LSTM的内容时,如何在T + 1更新权重?我试着看看在TD-Gammon中对TD权重更新的讨论,但它对我来说是愚蠢的,无论如何都是前馈,而不是经常性的。

如何在不必将网络推进到T + 1的情况下更新T网络的权重,或者如何将网络推进到T + 1然后返回并调整权重,就像它仍然是T一样?

0 个答案:

没有答案