应用错误收集

用于文本摘要的序列到序列模型的细节是什么？

时间：2017-04-18 17:55:49

标签： nlp dataset sequence-to-sequence

很清楚如何训练编码器 - 解码器模型进行翻译：每个源序列都有其相应的目标序列（翻译）。但是在文本摘要的情况下，摘要比它的文章短得多。根据{{3}}，每个源句都有它的摘要（更短或更长）。但我几乎没有相信存在任何这样的数据集，其中每个句子都有其相应的摘要。那么，如果我是对的，那么培养sunch模型的可行方法是什么？否则是否有任何免费的文本摘要数据集？

2 个答案:

答案 0 :(得分：0)

你说得对，很少有专门为训练文本摘要模型而创建的大型数据集。人们倾向于使用其他现有数据并找到将其转化为摘要问题的方法。您可以阅读其他文本摘要文件，了解它们的作用。

答案 1 :(得分：0)

研究倾向于使用

之类的数据集

评论诸如amazon product s的数据集之类的产品
以标题为摘要的新闻，例如CNN/Daily Mail数据集和Newsroom dataset

如果您需要更多有关如何有效使用这些模型的知识，请参阅本blog series的详细信息，了解如何使用最新方法来训练文本摘要模型，它还可以在线收集multiple implementations并加以实施在Google colab中，因此无论您的计算机功能如何，您都可以随时在Google colab上免费试用这些数据集