大家好,我有一个经过预训练的二进制文件,我想在我的语料库上对其进行训练。
我尝试的方法:
我尝试从我拥有的bin文件中提取txt文件,并在加载时将其用作word2vec文件,并在我自己的语料库上对其进行了进一步培训,并保存了模型,但是该模型对于在预训练的bin文件中(我为此使用intersect_word2vec_format命令。)
Here是我使用的脚本。
我的模型如何在预训练的文件和语料库中的单词上表现良好?
答案 0 :(得分:0)
加载模型并将build_vocab
与update = True
一起使用。
import gensim
from gensim.models import Word2Vec
model = Word2Vec.load('w2vmodel.bin')
my_corpus = ... # load your corpus as sentences here
model.build_vocab(my_corpus, update=True)
model.train(my_corpus)
intersect_word2vec_format
何时有用对我来说还不是很清楚,但是您可以阅读有关预期用例here的更多信息。看来,它确实不是用于向量的普通再训练。