我想使用域语料库(与情感相关的文本)对BERT和RoBERTa MLM进行预训练。使用50k到100k字需要多长时间。由于RoBERTa并未受过预测下一个句子目标的训练,这是一个比BERT少的训练目标,并且具有更大的迷你批和更高的学习率,我认为RoBERTa会更快吗?
答案 0 :(得分:4)
100k话,训练像BERT或RoBERTa这样的大型模型太少了。 the RoBERTa paper的主要主张是BERT实际上受到了不足的训练。 BERT对16 GB的文本数据进行了培训,而RoBERTa使用160 GB的纯文本。
对于您所描述的特定于域的小型数据,您可以尝试微调现有模型。在这种情况下,我会选择RoBERTa,因为它似乎经过了更好的预训练,没有下一个句子目标(这很麻烦为它预处理数据),并且它使用SentencePiece进行令牌化,这使得无损解令牌。