我正在尝试使用PyTorch 0.4.0实现Deep Mind的DNC-Nature paper-。
当他们实现LSTM的变体时,我遇到了尺寸方面的麻烦。
为了简化,假设BATCH = 1。
其中[x;h]
表示将x
和h
合并为一个向量,而i
,f
和o
是列向量
我的问题是关于状态s_t
是如何计算的。
第二个附录是通过将i
与列向量相乘而获得的,因此结果要么是标量(首先对i
进行转置,然后进行标量积),要么是错误的(两个列向量相乘)。 >
因此状态导致一个标量...
出于同样的原因,隐藏状态h_t
也是标量,但它必须是列向量。
很明显我在某个地方错了,但我不知道在哪里。
答案 0 :(得分:1)