backpropagation - 通过注意解码器层反向传播

我正在从头开始关注LSTM的编码器-解码器的构建，并且从概念上讲，我有95％的人知道多亏了articles such as this

应该可以使用正向道具。

我可以得到一个简单的两层编码器-解码器序列，以使LSTM正常工作，但是我在找回递归编码器-解码器的backprop上找不到资源。

我的问题是是将通过关注层的反向传播错误包含到先前解码器的时间步长误差中，还是仅将其传递给编码器。即，每个时间步长输出的隐藏状态都将传递给其他多个计算：（1）注意层，（2）直接传递到下一个解码器时间步长，以及（3）传递给预测层-这是否意味着错误信号也具有通过（1），（2）和（3）的路径反向传播？

很抱歉，我缺乏数学词汇，我试图用图表表达我的问题；

错误信号是否在时间步“ t0”进入解码器= 红色 + 蓝色 + 灰色' h_out（t0）'吗？还是只用 red 和 grey 错误信号之和通过解码器反向传播？LSTM encoder-decoder with attention for seq2seq

这是否会使培训过程与其他可变性相混淆，这取决于注意力层通过培训过程生成的信息？

此外，如果我确实将所有3个成分组合到上述Q中的错误中，我们是否也对预测层反向传播应用相同的逻辑？在图表上：绿色+粉色Prdct（t0）