如何使用BERT训练大量自定义文本中的词嵌入?

时间:2020-10-05 02:28:01

标签: machine-learning nlp data-science word-embedding bert-language-model

我发现了一个很棒的教程,可以在此处为自定义句子生成上下文化词嵌入:http://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/

但是,它并没有告诉我如何在较大的段落中进行训练。我有大约1,000个令牌,我希望模型学习。如何修改链接的代码并将其应用于整个段落,以便每个单词都从整个文档中学习上下文?

1 个答案:

答案 0 :(得分:0)

您链接到的教程当前使用Huggingface变形金刚。根据作者的说法,their BERT model is limited to 512 tokens。如果您想处理更长的句子,则需要从头开始训练自己的BERT。

请注意,总的来说,获得长文档的良好嵌入仍然是一个活跃的研究领域,仅更改配置文件中的一些数字就不会获得良好的结果。