应用错误收集

我一直在阅读BERT，并使用BERT嵌入进行分类任务。我读过很多文章，但是我对它的理解还不是100％（我是NLP的自学老师，因此对资源的访问可能会受到限制）。首先，我将描述我的任务。

我计划使用BERT嵌入进行分类，因为它封装了含义和语言。不幸的是，我的语言（爱尔兰语）没有BERT模型，因此我开始考虑自己训练。我知道BERT基本上是对Transformer Encoder的某种“扩展”。

这是我的问题/疑问：

我认为这是相当明显的，但是要进行检查，不能将预训练的BERT嵌入应用于不同的语言（标准的嵌入模型在Wiki数据集上针对英语进行了训练，我认为可能不会在以下语言上使用）其他语言（明显原因）？
我的数据集包含约 85万个句子（爱尔兰语）（约 2200万个字）。这样足以训练出像样的BERT模型吗？我可以找到更多的数据，但是要获得更多的爱尔兰语将非常困难。
是否建议在PyTorch或TensorFlow中“从头开始”制作BERT模型，还是使用Fairseq和OpenNMT之类的模型好用？

为这样一个脱节的问题表示歉意，但总而言之，我到处都是在试图完全理解BERT，尤其是训练过程并针对嵌入进行调整。如果我全都错了，或者只是提出建议，我将非常感谢您的反馈。