应用错误收集

如何根据自己的任务微调BERT？

时间：2019-05-03 15:58:37

标签： python keras nlp pytorch language-model

我想用来自我自己语言的数据对BERT进行预训练，因为BERT的多语言（包括我的语言）模型并不成功。由于整个预培训的成本很高，因此我决定对它自己的2个任务进行微调：掩盖语言模型和下一句预测。以前有针对不同任务的实现（NER，情感分析等），但我无法对自己的任务进行任何微调。有没有我看不到的实现？如果没有，我应该从哪里开始？我需要一些初步帮助。

1 个答案:

答案 0 :(得分：1)

BERT的绝佳资源是：https://github.com/huggingface/pytorch-pretrained-BERT。该存储库包含针对PyTorch的互操作重新实现，经过预训练的模型以及针对Google BERT模型的微调示例。

您可以在以下链接中找到语言模型的微调示例。该文件夹中的三个示例脚本可用于使用预训练目标（屏蔽语言建模和下一句预测损失的组合）微调预训练的BERT模型。

https://github.com/huggingface/pytorch-pretrained-BERT/tree/master/examples/lm_finetuning

顺便说一下，BERT多语言支持104种语言（ref），并且发现它在许多跨语言NLP任务（ref）中出奇地有效。因此，请确保在任务中正确使用BERT。