应用错误收集

我经历了一系列机器学习示例，这些示例使用RNN进行文档分类（多对一）。在大多数教程中，使用最后一个时间步的RNN输出，即，将其输入一个或多个密集层以将其映射到类的数量（例如，[1]，[2]）。

但是，我还遇到了一些例子，其中使用了所有时间步长的输出的平均值而不是最后一个输出（平均合并？，例如[3]）。此平均输出的尺寸当然与上一次输出的尺寸相同。从计算上看，两种方法都是一样的。

我现在的问题是，两种不同方法之间的直觉是什么。由于递归性质，最后一个输出也反映了前一时间步的输出。那么为什么在所有时间步骤中平均RNN输出的想法。什么时候用？

随时间推移汇总是一种特定技术，用于从输入序列中提取要素。来自this question：

这样做的原因是，在NLP中，句子中的句子自然地具有不同的长度，而不是像在CNN中那样“下采样”句子。这使得不同句子的特征映射不同，但我们希望将张量减小到固定大小以最终应用softmax或回归头。如本文所述，它允许捕获最重要的特征，每个特征映射具有最高值。

这里需要注意的是，max-over-time（或平均时间）通常是中间层。特别是，它们中的一些可以连续或并行（具有不同的窗口尺寸）。网络产生的最终结果仍然可以是多对一或多对多（至少在理论上）。

但是，在大多数情况下，RNN有一个单输出。如果输出必须是序列，则此输出通常被馈送到另一个RNN。所以这一切归结为如何学习这个单一的值：在整个序列中采用最后一个单元格输出或聚合或应用注意机制等。