nlp - 摘要任务的 PEGASUS 预训练

我不确定如何对最近推出的用于单个文档摘要的 PEGASUS model 进行大型文档摘要的评估。

作者针对大型文档数据集（如 Big Patent、PubMed 等，文档长度超过 Transformer 模型的输入大小）进行了展示评估。

引用论文中的内容，他们确实谈到了这一点，但并没有进一步详细说明。

<块引用>

CNN/DailyMail、Multi-News、arXiv、PubMed、BIG-PATENT 数据集包含的输入文档长于预训练中的最大输入长度 (L_input = 512 tokens)。这将给位置嵌入带来一个问题，该问题永远不会因更长的输入长度而更新，但我们确认了正弦位置编码（Vaswani et al., 2017）在微调超出输入长度的 PEGASUSLARGE 时可以很好地泛化的假设在达到 L_input = 1024 tokens 的训练中观察到。由于 BIGPATENT、arXiv、PubMed 和 Multi-News 中的平均输入长度远远超过 1024 个标记，因此进一步扩大 L_input 或应用两阶段方法（Liu 等人，2018 年）可能会进一步提高性能，尽管这超出了这项工作的范围。

他们确实提到输入长度最多可达 1024 个标记。在 Huggingface 上的 PEGASUS Large 模型中，最大输入令牌也是 1024。

我不确定他们是如何设法将文档摘要扩展到超过 1024 个令牌的。

我也想为自己想要尝试的长文档摘要做类似的事情。

摘要任务的 PEGASUS 预训练

0 个答案: