我正在考虑在图像上应用grid-lstm。从原始论文中可以看出:
请注意,块不会收到单独的数据表示。数据点通过沿着网格的一侧的一对输入隐藏和存储器向量投射到网络中。
据我所知,这意味着与lstm的其他变体不同,例如多维lstm,其输入是* [所有先前隐藏的向量,I * x]的串联,网格lstm不接收数据点(比如RGB值)作为输入。相反,这些RGB特征直接用作grid-lstm一侧的隐藏/存储状态。那是对的吗?
答案 0 :(得分:0)
根据我的理解(并根据图2),输入数据直接输入隐藏和存储向量。此外,输出来自传出内存和隐藏向量。这表明,如有必要,原始输入可以通过整个深度维度(解决消失的梯度问题)。
但是,这不会影响输入投影(I * x),我将其解释为预处理方法(例如翻译示例4.4中的单词嵌入)。我相信,选择I * x的符号来表示模型的简洁性。我们仍然在技术上连接所有传入的隐藏向量,在堆叠/ MD-LSTM中也是如此。 RGB点仍然用作矢量,参见2.1节:
(...)包含隐含向量h∈R^ d和存储向量m∈R^ d的网络状态。
d,对于RGB图像,将为3.这是后来使用的LSTM的定义,因此我们可以假设Grid-LSTM具有相同的含义。