LSTM-分离隐藏状态

时间:2021-02-13 16:37:12

标签: python lstm recurrent-neural-network

所以我开始研究 RNN,尤其是 LSTM,但我只是不明白其中的部分理论。

当你堆叠 LSTM 单元时,我看到每个人都是如何将隐藏状态从历史中分离出来的,但这对我来说没有意义,LSTM 不应该使用历史中的隐藏状态来做出更好的预测吗?

我阅读了文档,但我仍然不清楚,所以欢迎任何解释

1 个答案:

答案 0 :(得分:2)

你没看错,LSTM 中的隐藏状态是用来作为记忆的。但是出现了这个问题,我们应该学习它们吗?不,隐藏状态不应该被学习,所以我们分离它让模型使用这些值,但 计算梯度。

如果不分离,那么梯度会很大。