我的数据集和NLP任务与作者预先训练其模型(https://github.com/google-research/bert#pre-training-with-bert)的大型语料库有很大不同,因此我无法直接进行微调。 是否有示例代码/ GitHub可以帮助我用自己的数据训练BERT?我希望得到像手套这样的嵌入物。
非常感谢您!
答案 0 :(得分:0)
是的,您可以像使用extract_features.py
脚本进行的其他单词嵌入一样获得BERT嵌入。您可以选择需要输出的层数。用法很简单,您必须在文本文件中每行保存一个句子并将其作为输入传递。输出将是一个JSONL文件,每个令牌提供上下文嵌入。
https://github.com/google-research/bert#using-bert-to-extract-fixed-feature-vectors-like-elmo
提供了脚本与文档的结合使用