如何使用gensim在我自己的语料库上训练预训练的二进制文件?

时间:2018-07-19 05:24:32

标签: nlp models gensim corpus

大家好,我有一个经过预训练的二进制文件,我想在我的语料库上对其进行训练。

我尝试的方法:

我尝试从我拥有的bin文件中提取txt文件,并在加载时将其用作word2vec文件,并在我自己的语料库上对其进行了进一步培训,并保存了模型,但是该模型对于在预训练的bin文件中(我为此使用intersect_word2vec_format命令。)

Here是我使用的脚本。

我的模型如何在预训练的文件和语料库中的单词上表现良好?

1 个答案:

答案 0 :(得分:0)

加载模型并将build_vocabupdate = True一起使用。

import gensim
from gensim.models import Word2Vec

model = Word2Vec.load('w2vmodel.bin')
my_corpus = ... # load your corpus as sentences here
model.build_vocab(my_corpus, update=True)
model.train(my_corpus)

intersect_word2vec_format何时有用对我来说还不是很清楚,但是您可以阅读有关预期用例here的更多信息。看来,它确实不是用于向量的普通再训练。