我正在将Pytorch用于LSTM编码器-解码器序列间预测问题。第一步,我想从多元输入中预测二维轨迹(轨迹x,轨迹y)-二维或更多(轨迹x,轨迹y,速度,旋转等)
我正在关注以下笔记本(链接):
以下摘录(编码器,解码器,注意):
PDFDisplayVC
为了在解码器阶段计算注意力,输入并隐藏编码器隐藏状态和编码器输出,如下所示:
webView.load(mathBookURL!)
我的实际目标是通过添加进一步的信息(例如在每个输入时间步长处的图像数据)添加到解码器中来扩展该方法。从技术上讲,我想使用两个(或多个)编码器,一个用于上面链接中的轨迹,另一个用于图像数据(卷积编码器)。
我这样做是通过将轨迹编码器和卷积编码器(以及像元状态等)产生的嵌入进行级联,然后将级联张量馈送到解码器。
例如,将图像嵌入(长度为256的张量)与轨迹数据嵌入(长度为256的张量)并置,将产生512长度的嵌入。
我的问题是:如果我使用串联编码器隐藏状态,串联编码器单元状态和来自这些不同来源的串联编码器输出而不是隐藏状态,单元格,输出来,那么注意力计算是否存在问题?来自单一来源?
进行这项工作应该发生哪些警告或预处理?
非常感谢您。