我一直在阅读BERT,并使用BERT嵌入进行分类任务。我读过很多文章,但是我对它的理解还不是100%(我是NLP的自学老师,因此对资源的访问可能会受到限制)。首先,我将描述我的任务。
我计划使用BERT嵌入进行分类,因为它封装了含义和语言。不幸的是,我的语言(爱尔兰语)没有BERT模型,因此我开始考虑自己训练。我知道BERT基本上是对Transformer Encoder的某种“扩展”。
这是我的问题/疑问:
我认为这是相当明显的,但是要进行检查,不能将预训练的BERT嵌入应用于不同的语言(标准的嵌入模型在Wiki数据集上针对英语进行了训练,我认为可能不会在以下语言上使用)其他语言(明显原因)?
我的数据集包含约 85万个句子(爱尔兰语)(约 2200万个字)。这样足以训练出像样的BERT模型吗?我可以找到更多的数据,但是要获得更多的爱尔兰语将非常困难。
是否建议在PyTorch或TensorFlow中“从头开始”制作BERT模型,还是使用Fairseq和OpenNMT之类的模型好用?
为这样一个脱节的问题表示歉意,但总而言之,我到处都是在试图完全理解BERT,尤其是训练过程并针对嵌入进行调整。如果我全都错了,或者只是提出建议,我将非常感谢您的反馈。