Andrew Ng通过将递归层彼此堆叠来讨论Deep RNN架构。但是,他指出,由于结构中与时间有关的计算已经很复杂,因此这些层通常限于2或3个循环层。但他确实补充说,人们通常在这些循环图层之后添加“一堆未水平连接的深层图层”(显示为从a [3] <1>延伸的蓝框)。我想知道他是否只是在谈论将Dense层堆叠在循环层之上,还是更复杂?在Keras中是这样的:
awk -v pattern="Pattern" -v n_line=3 -v addstr=" ,somestring" 'line{line+=1}($0 ~ pattern){line=1}(line==n_line){$0 = $0 addstr}1' file > tmp && mv tmp file
答案 0 :(得分:1)
是,在大多数情况下,隐藏状态后RNN的常见结构仅包含密集层。
但是,在自然语言处理(NLP)(或语言建模)应用程序(examples here)中预测词汇表的下一个单词时,这可以采用多种形式,例如密集层和softmax层。 / p>
或者,对于多目标预测,可能需要多个单独的密集层来生成不同的输出,例如reinforcement learning中的价值和政策负责人。
最后,深LSTM可以用作编码器,它是较大模型的一部分,不一定必须仅包含序列数据。例如,在将组合的嵌入物传递到最终的密集层之前,使用LSTM对文本注释进行编码并使用CNN对图像进行编码的模型来诊断患者。