python - LSTM-分离隐藏状态 - Thinbug

LSTM-分离隐藏状态

时间：2021-02-13 16:37:12

标签： python lstm recurrent-neural-network

所以我开始研究 RNN，尤其是 LSTM，但我只是不明白其中的部分理论。

当你堆叠 LSTM 单元时，我看到每个人都是如何将隐藏状态从历史中分离出来的，但这对我来说没有意义，LSTM 不应该使用历史中的隐藏状态来做出更好的预测吗？

我阅读了文档，但我仍然不清楚，所以欢迎任何解释

1 个答案:

答案 0 :(得分：2)

你没看错，LSTM 中的隐藏状态是用来作为记忆的。但是出现了这个问题，我们应该学习它们吗？不，隐藏状态不应该被学习，所以我们分离它让模型使用这些值，但不计算梯度。

如果不分离，那么梯度会很大。