如何忘记大门'知道不要从LSTM的细胞状态中删除基本信息吗?

时间:2017-06-19 04:25:12

标签: neural-network lstm recurrent-neural-network

首先,如果这不适合堆栈溢出,我道歉。这不是一个与代码相关的问题,而不是一个理论问题。

这对我来说并不完全清楚。假设你有一个很大的段落,你希望你的LSTM学习,如何确保它不会删除第一段中的细节?

2 个答案:

答案 0 :(得分:1)

在BPTT算法中,当单词在确定最终输出时没有发挥重要作用时,渐变会很小,随着训练的进行,重量会变小。它是自动的,因为LSTM机制决定了它。

为了您的担忧,您可能会误解LSTM,LSTM可以解决梯度消失问题,因为它将continually multiply转换为continually plus。简单地说,hi = a1 * h1 + a2 * h2 + a3 * h3 + ...,后一输出是每个先前输出的函数,因此保持梯度。有关梯度累积理论的详细信息,请参阅An Empirical Exploration of Recurrent Network Architectures。此外,如今关注机制广泛应用,更适合您的需求,您可以看到Neural Machine Translation By Jointly Learning To Align and Translate

答案 1 :(得分:0)

我相信this paper会有所帮助。它解释了反向传播算法。

另请注意,对于LSTM的处理段落,多个LSTM块以顺序并行方式使用。此外,神经网络是black boxes:我们不知道内部的工作方式,并且他们自己构成了哪些细节很重要。