标签: pytorch huggingface-transformers
我想知道我是否可以使用BERT架构来训练语言模型。 BertForMaskedLM包含一个名为lm_labels的参数,以便执行语言建模。这将继续使用编码器架构,因此不会引起人们的注意。它将是一个编码器,它使用因果注意掩码来执行语言建模,因此它只能保留过去。如果可能的话,这与GPT2有何不同(除了进行较小的更改(如执行激活前的残差归一化))?