Question

Andrew Ng通过将递归层彼此堆叠来讨论Deep RNN架构。但是，他指出，由于结构中与时间有关的计算已经很复杂，因此这些层通常限于2或3个循环层。但他确实补充说，人们通常在这些循环图层之后添加“一堆未水平连接的深层图层”（显示为从a [3] <1>延伸的蓝框）。我想知道他是否只是在谈论将Dense层堆叠在循环层之上，还是更复杂？在Keras中是这样的：

awk -v pattern="Pattern" -v n_line=3 -v addstr=" ,somestring" 'line{line+=1}($0 ~ pattern){line=1}(line==n_line){$0 = $0 addstr}1' file > tmp && mv tmp file

Answer 1

是，在大多数情况下，隐藏状态后RNN的常见结构仅包含密集层。

但是，在自然语言处理（NLP）（或语言建模）应用程序（examples here）中预测词汇表的下一个单词时，这可以采用多种形式，例如密集层和softmax层。 / p>

或者，对于多目标预测，可能需要多个单独的密集层来生成不同的输出，例如reinforcement learning中的价值和政策负责人。

最后，深LSTM可以用作编码器，它是较大模型的一部分，不一定必须仅包含序列数据。例如，在将组合的嵌入物传递到最终的密集层之前，使用LSTM对文本注释进行编码并使用CNN对图像进行编码的模型来诊断患者。

堆叠LSTM之后具有多个致密层

1 个答案: