Question

大家好，我有一个经过预训练的二进制文件，我想在我的语料库上对其进行训练。

我尝试的方法：

我尝试从我拥有的bin文件中提取txt文件，并在加载时将其用作word2vec文件，并在我自己的语料库上对其进行了进一步培训，并保存了模型，但是该模型对于在预训练的bin文件中（我为此使用intersect_word2vec_format命令。）

Here是我使用的脚本。

我的模型如何在预训练的文件和语料库中的单词上表现良好？

Answer 1

加载模型并将build_vocab与update = True一起使用。

import gensim
from gensim.models import Word2Vec

model = Word2Vec.load('w2vmodel.bin')
my_corpus = ... # load your corpus as sentences here
model.build_vocab(my_corpus, update=True)
model.train(my_corpus)

intersect_word2vec_format何时有用对我来说还不是很清楚，但是您可以阅读有关预期用例here的更多信息。看来，它确实不是用于向量的普通再训练。

如何使用gensim在我自己的语料库上训练预训练的二进制文件？

1 个答案: