我有我自己的纯文本语料库。我想在TensorFlow中训练一个Bert模型,类似于gensim的word2vec来获取每个单词的嵌入向量。
我发现所有示例都与任何下游NLP任务(如分类)有关。但是,我想用我的自定义语料库训练Bert模型,然后获得给定单词的嵌入向量。
任何线索都会有所帮助。
答案 0 :(得分:0)
如果可以访问所需的硬件,则可以使用TensorFlow深入研究NVIDIA的BERT培训脚本。回购是here。来自medium article:
BERT-large可以在3.3天内在四个DGX-2H节点上进行预训练(a 总共64个Volta GPU)。
如果您没有庞大的语料库,那么对可用模型进行微调可能会获得更好的结果。如果愿意的话,您可以研究拥抱面的transformers。