所以我开始研究 RNN,尤其是 LSTM,但我只是不明白其中的部分理论。
当你堆叠 LSTM 单元时,我看到每个人都是如何将隐藏状态从历史中分离出来的,但这对我来说没有意义,LSTM 不应该使用历史中的隐藏状态来做出更好的预测吗?
我阅读了文档,但我仍然不清楚,所以欢迎任何解释
答案 0 :(得分:2)
你没看错,LSTM 中的隐藏状态是用来作为记忆的。但是出现了这个问题,我们应该学习它们吗?不,隐藏状态不应该被学习,所以我们分离它让模型使用这些值,但不 计算梯度。
如果不分离,那么梯度会很大。