应用错误收集

随着序列的长度增加到RNN的容量限制以上，性能将不断下降。

注意力机制允许RNN逐渐将注意力集中在最佳子序列上，因此在最佳情况下，性能不会受到序列最大长度的限制。注意力模型在诸如语言翻译之类的NLP应用中的有效性得到了很好的证实。

在这种情况下，必须要权衡：整个注意力模型是通过梯度下降进行端到端训练的。注意权重形成(len(input_seq), len(output_seq))形状的矩阵，对其进行训练具有二次运行时间。因此，在以下情况下，注意将是最有用的：

无论如何，都有积极的研究来减少运行时间。有关论文参考和更多信息，我建议您查看Andrew Ng's Coursera in deep sequence modelling的第三周视频（免费）。该课程还介绍了Keras实现的注意力模型以及一些不错的情节。

希望这会有所帮助！干杯，
安德烈斯