应用错误收集

如何使用BERT训练大量自定义文本中的词嵌入？

时间：2020-10-05 02:28:01

标签： machine-learning nlp data-science word-embedding bert-language-model

我发现了一个很棒的教程，可以在此处为自定义句子生成上下文化词嵌入：http://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/

但是，它并没有告诉我如何在较大的段落中进行训练。我有大约1,000个令牌，我希望模型学习。如何修改链接的代码并将其应用于整个段落，以便每个单词都从整个文档中学习上下文？

1 个答案:

答案 0 :(得分：0)

您链接到的教程当前使用Huggingface变形金刚。根据作者的说法，their BERT model is limited to 512 tokens。如果您想处理更长的句子，则需要从头开始训练自己的BERT。

请注意，总的来说，获得长文档的良好嵌入仍然是一个活跃的研究领域，仅更改配置文件中的一些数字就不会获得良好的结果。