标签: pytorch language-model huggingface-transformers
在huggingface transformer中,可以使用预先训练的GPT2-XL语言模型。但是我找不到,在哪个数据集上进行训练?是否与OpenAI用于其paper的训练模型相同(在称为webtext的40GB数据集上训练)?
webtext
答案 0 :(得分:0)
GPT2-XL模型是您链接的论文中详细介绍的四种架构(1542M参数)中最大的一种。在与其他三个相同的数据(即您要提及的WebText)上进行训练。