LSTM网络输出门中的tanh激活功能

时间:2017-11-30 17:51:16

标签: machine-learning lstm recurrent-neural-network

最近我在研究LSTM网络。我大多想通了前锋。那里有很多很棒的材料。我现在正在试图弄清楚后向传递的工作原理。这对我来说似乎有点棘手。当我进行一些搜索时,我看到了一篇关于arxiv的文章,让我感到困惑。

In this article,作者描述了LSTM前向传递,并为后向传递做出推导。但是,他正在使用tanh激活功能作为输出门。我找不到任何参考资料来解释他为什么会这样做。

o_{t} = tanh(W_{xo}x_{t} + W_{ho}h_{t−1} + b_{o})

有人可以关心解释我或者至少提供一些文章来阅读吗?因为我找不到一个。我看到的文章和/或博客和/或课程幻灯片都使用sigmoid函数作为输出门,其推理完全对我有意义。例如:http://colah.github.io/posts/2015-08-Understanding-LSTMs/

这里,输出门由;

给出

o_{t} = \sigma(W_{o}x_{t} + W_{o}h_{t−1} + b_{o})

在同一篇文章中,他使用sigmoid函数来确定候选单元格状态(内部状态)值(或者有时称为“输入节点”或作者称之为“输入调制门”,由g_{t})将旧单元状态更新为新单元状态。通常,总和加权输入是通过tanh激活函数运行的(如我上面链接的这篇博文中的教程),尽管在原始LSTM论文中,激活函数是一个sigmoid。我完全理解这一点并能理解直觉。

注意:这篇文章不重复。我不是直觉为什么要使用sigmoid或tanh函数。

编辑:在上面的文章中,它取输出门的tanh功能。但是,如果你看一下JürgenSchmidhuber的一篇文章(LSTM:A Search Space Odyssey,https://arxiv.org/abs/1503.04069,见图1),它说输出门的激活功能总是sigmoid。我知道arxiv论文没有正式发表,也没有经过同行评审。但是,我只是想确定在我声称有一些错误之前,这篇文章“陈刚的”带错误反向传播的回归神经网络的温柔教程“。

0 个答案:

没有答案