应用错误收集

最近我在研究LSTM网络。我大多想通了前锋。那里有很多很棒的材料。我现在正在试图弄清楚后向传递的工作原理。这对我来说似乎有点棘手。当我进行一些搜索时，我看到了一篇关于arxiv的文章，让我感到困惑。

In this article，作者描述了LSTM前向传递，并为后向传递做出推导。但是，他正在使用tanh激活功能作为输出门。我找不到任何参考资料来解释他为什么会这样做。

o_{t} = tanh(W_{xo}x_{t} + W_{ho}h_{t−1} + b_{o})

有人可以关心解释我或者至少提供一些文章来阅读吗？因为我找不到一个。我看到的文章和/或博客和/或课程幻灯片都使用sigmoid函数作为输出门，其推理完全对我有意义。例如：http://colah.github.io/posts/2015-08-Understanding-LSTMs/

这里，输出门由;

给出

o_{t} = \sigma(W_{o}x_{t} + W_{o}h_{t−1} + b_{o})

在同一篇文章中，他使用sigmoid函数来确定候选单元格状态（内部状态）值（或者有时称为“输入节点”或作者称之为“输入调制门”，由g_{t}）将旧单元状态更新为新单元状态。通常，总和加权输入是通过tanh激活函数运行的（如我上面链接的这篇博文中的教程），尽管在原始LSTM论文中，激活函数是一个sigmoid。我完全理解这一点并能理解直觉。

注意：这篇文章不重复。我不是直觉为什么要使用sigmoid或tanh函数。

编辑：在上面的文章中，它取输出门的tanh功能。但是，如果你看一下JürgenSchmidhuber的一篇文章（LSTM：A Search Space Odyssey，https://arxiv.org/abs/1503.04069，见图1），它说输出门的激活功能总是sigmoid。我知道arxiv论文没有正式发表，也没有经过同行评审。但是，我只是想确定在我声称有一些错误之前，这篇文章“陈刚的”带错误反向传播的回归神经网络的温柔教程“。

LSTM网络输出门中的tanh激活功能

0 个答案: