GPT2-XL预训练模型训练数据的大小

时间:2020-02-11 16:41:17

标签: pytorch language-model huggingface-transformers

huggingface transformer中,可以使用预先训练的GPT2-XL语言模型。但是我找不到,在哪个数据集上进行训练?是否与OpenAI用于其paper的训练模型相同(在称为webtext的40GB数据集上训练)?

1 个答案:

答案 0 :(得分:0)

GPT2-XL模型是您链接的论文中详细介绍的四种架构(1542M参数)中最大的一种。在与其他三个相同的数据(即您要提及的WebText)上进行训练。