Deep Mind可分化神经计算机(DNC)中LSTM变体的尺寸

时间:2018-07-25 10:43:02

标签: machine-learning lstm

我正在尝试使用PyTorch 0.4.0实现Deep Mind的DNC-Nature paper-。

当他们实现LSTM的变体时,我遇到了尺寸方面的麻烦。
为了简化,假设BATCH = 1。

他们在论文中列出的方程式如下: LSTM variant used by DNC

其中[x;h]表示将xh合并为一个向量,而ifo是列向量

我的问题是关于状态s_t是如何计算的。
第二个附录是通过将i与列向量相乘而获得的,因此结果要么是标量(首先对i进行转置,然后进行标量积),要么是错误的(两个列向量相乘)。 > 因此状态导致一个标量...

出于同样的原因,隐藏状态h_t也是标量,但它必须是列向量。

很明显我在某个地方错了,但我不知道在哪里。

1 个答案:

答案 0 :(得分:1)

通过查看Wikipedia LSTM Article,我想我已经知道了。

这是在文章中找到的标准LSTM的正式实现: enter image description here

circle代表逐个元素的产品。

通过在DNC方程的相应部分(s_to_t)中使用此乘积,尺寸就起作用了。