摘要任务的 PEGASUS 预训练

时间:2021-03-30 08:20:57

标签: nlp huggingface-transformers transformer summarization huggingface-tokenizers

我不确定如何对最近推出的用于单个文档摘要的 PEGASUS model 进行大型文档摘要的评估。

作者针对大型文档数据集(如 Big Patent、PubMed 等,文档长度超过 Transformer 模型的输入大小)进行了展示评估。

引用论文中的内容,他们确实谈到了这一点,但并没有进一步详细说明。

<块引用>

CNN/DailyMail、Multi-News、arXiv、PubMed、BIG-PATENT 数据集包含的输入文档长于预训练中的最大输入长度 (L_input = 512 tokens)。这将给位置嵌入带来一个问题,该问题永远不会因更长的输入长度而更新,但我们确认了正弦位置编码(Vaswani et al., 2017)在微调超出输入长度的 PEGASUSLARGE 时可以很好地泛化的假设在达到 L_input = 1024 tokens 的训练中观察到。由于 BIGPATENT、arXiv、PubMed 和 Multi-News 中的平均输入长度远远超过 1024 个标记,因此进一步扩大 L_input 或应用两阶段方法(Liu 等人,2018 年)可能会进一步提高性能,尽管这超出了这项工作的范围。

他们确实提到输入长度最多可达 1024 个标记。在 Huggingface 上的 PEGASUS Large 模型中,最大输入令牌也是 1024。

我不确定他们是如何设法将文档摘要扩展到超过 1024 个令牌的。

我也想为自己想要尝试的长文档摘要做类似的事情。

0 个答案:

没有答案