应用错误收集

长序列在seq2seq模型中注意？

时间：2017-06-04 05:45:50

标签： python lstm summarization pytorch

我正在遵循此pytorch教程http://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html，并尝试将此原则应用于摘要。其中编码序列大约为1000个字，而解码器目标为200个字。如何将seq2seq应用于此？我知道一次完成1000个单词的整个序列会非常昂贵且几乎不可行。因此将seq划分为20 seq并且并行运行可以得到答案。但我不确定如何实现它我也想把注意力集中在它上面。

1 个答案:

答案 0 :(得分：0)

您无法及时并行化RNN（此处为1000），因为它们本质上是顺序的。

您可以使用轻量级RNN，例如QRNN或SRU作为较快的替代方案（仍是顺序的）。

另一个常见的序列处理模块是TCN和Transformers，它们都可以在时间上并行化。

另外，请注意，所有这些都可以引起注意，并且可以完美地处理文本。

序列分类的注意机制（seq2seq tensorflow r1.1）
长序列在seq2seq模型中注意？
如何在Keras上添加注意层到seq2seq模型
Tensorflow：使用Attention和BeamSearch在seq2seq模型中使用.clone（）进行故障排除
在seq2seq Maluuba模型中实现注意力机制
Tensorflow：seq2seq注意，尺寸不匹配
在Keras上使用解码器输入seq2seq模型连接注意力层
Seq2Seq注意机制
Seq2seq中的错误，请注意张量流
在pytorch中注意seq2seq教程的错误？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？