应用错误收集

如何忘记大门＆＃39;知道不要从LSTM的细胞状态中删除基本信息吗？

时间：2017-06-19 04:25:12

标签： neural-network lstm recurrent-neural-network

首先，如果这不适合堆栈溢出，我道歉。这不是一个与代码相关的问题，而不是一个理论问题。

这对我来说并不完全清楚。假设你有一个很大的段落，你希望你的LSTM学习，如何确保它不会删除第一段中的细节？

2 个答案:

答案 0 :(得分：1)

在BPTT算法中，当单词在确定最终输出时没有发挥重要作用时，渐变会很小，随着训练的进行，重量会变小。它是自动的，因为LSTM机制决定了它。

为了您的担忧，您可能会误解LSTM，LSTM可以解决梯度消失问题，因为它将continually multiply转换为continually plus。简单地说，hi = a1 * h1 + a2 * h2 + a3 * h3 + ...，后一输出是每个先前输出的函数，因此保持梯度。有关梯度累积理论的详细信息，请参阅An Empirical Exploration of Recurrent Network Architectures。此外，如今关注机制广泛应用，更适合您的需求，您可以看到Neural Machine Translation By Jointly Learning To Align and Translate。

答案 1 :(得分：0)

我相信this paper会有所帮助。它解释了反向传播算法。

另请注意，对于LSTM的处理段落，多个LSTM块以顺序和并行方式使用。此外，神经网络是black boxes：我们不知道内部的工作方式，并且他们自己构成了哪些细节很重要。