应用错误收集

GPT2-XL预训练模型训练数据的大小

时间：2020-02-11 16:41:17

标签： pytorch language-model huggingface-transformers

在huggingface transformer中，可以使用预先训练的GPT2-XL语言模型。但是我找不到，在哪个数据集上进行训练？是否与OpenAI用于其paper的训练模型相同（在称为webtext的40GB数据集上训练）？

1 个答案:

答案 0 :(得分：0)

GPT2-XL模型是您链接的论文中详细介绍的四种架构（1542M参数）中最大的一种。在与其他三个相同的数据（即您要提及的WebText）上进行训练。