nlp - 您可以使用任务特定架构从头开始训练BERT模型吗？

BERT可以看作是一种语言编码器，它接受了大量的数据训练，可以很好地学习该语言。众所周知，原始的BERT模型是在整个英语Wikipedia和Book语料库上进行训练的，总计为 3,300M 个单词。基于BERT的模型参数为109M。因此，如果您认为自己有足够的数据来训练BERT，那么问题的答案是肯定的。

但是，当您说“仍然取得良好结果”时，我假设您正在与原始BERT模型进行比较。在这种情况下，答案在于训练数据的大小。

我想知道为什么您更喜欢从头训练BERT而不是对其进行微调？是因为您担心域适应问题吗？如果不是这样，经过预训练的BERT可能是一个更好的起点。

请注意，如果您想从头训练BERT，则可以考虑使用更小的体系结构。您可能会发现以下论文很有用。

Well-Read Students Learn Better: On the Importance of Pre-training Compact Models
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

您可以使用任务特定架构从头开始训练BERT模型吗？

1 个答案: