我正在尝试从头训练拥抱面对GPT2模型的实现(这意味着我正在使用其体系结构,而不是使用预先训练的权重),但是通过查看此处的https://github.com/huggingface/transformers/blob/master/src/transformers/modeling_gpt2.py代码,我注意到没有似乎是因果屏蔽的实现。
我可以写一个丑陋的for loop
并将我的训练序列一次馈入网络,这不会很低效。我还可以逐个标记地分割每个示例标记,填充它们并像批处理一样喂入它,这可能会更快,但不会让人感到非常满意。
你们中的任何人之前都曾与拥抱面的变压器紧密合作吗?您是否知道我错过了一个casal mask的实现,或者是执行我正在描述的另一种方式?
PS:是的,我已经从头开始阅读了拥抱面的有关培训的博客文章,但是该文章大部分是不完整的,与培训有关的部分被省略了。