如何在我自己的新数据集中使用BERT预训练嵌入?

时间:2019-06-13 15:37:22

标签: word-embedding transfer-learning

我的数据集和NLP任务与作者预先训练其模型(https://github.com/google-research/bert#pre-training-with-bert)的大型语料库有很大不同,因此我无法直接进行微调。 是否有示例代码/ GitHub可以帮助我用自己的数据训练BERT?我希望得到像手套这样的嵌入物。

非常感谢您!

1 个答案:

答案 0 :(得分:0)

是的,您可以像使用extract_features.py脚本进行的其他单词嵌入一样获得BERT嵌入。您可以选择需要输出的层数。用法很简单,您必须在文本文件中每行保存一个句子并将其作为输入传递。输出将是一个JSONL文件,每个令牌提供上下文嵌入。

https://github.com/google-research/bert#using-bert-to-extract-fixed-feature-vectors-like-elmo

提供了脚本与文档的结合使用