gensim - Word2vec继续训练现有模型 - AttributeError:'Word2Vec'对象没有属性'compute_loss'

时间:2018-01-25 13:28:07

标签: python nlp word2vec gensim

我正在尝试继续对现有模型进行培训,

model = gensim.models.Word2Vec.load('model/corpus.zhwiki.word.model')
more_sentences = [['Advanced', 'users', 'can', 'load', 'a', 'model', 'and', 'continue', 'training', 'it', 'with', 'more', 'sentences']]    
model.build_vocab(more_sentences, update=True)
model.train(more_sentences, total_examples=model.corpus_count, epochs=model.iter)

但是最后一行出错:

AttributeError:'Word2Vec'对象没有属性'compute_loss'

有些帖子说这是因为使用了早期版本的gensim,我试图在加载现有模型之后和train()之前添加它。

model.compute_loss = False

之后,它没有给我AttributeError,但是model.train()的输出是0,模型没有用新句子训练。

enter image description here

如何解决这个问题?谢谢你提前。

2 个答案:

答案 0 :(得分:3)

以下是我继续训练模型的方法

# training_data: initial training data. contain list of tokenized sentences
model = Word2Vec(training_data, size=50, window=5, min_count=10, workers=4)

# datasmall: more sentences
# total_examples: number of additional sentence
# epochs: provide your current epochs. model.epochs is ok 
model.train(datasmall, total_examples=len(datasmall), epochs=model.epochs)

答案 1 :(得分:1)

total_examples的{​​{1}}(和epochs)参数应与您train()中当前提供的参数相匹配 - 而不是之前培训的剩余值。

例如,如果您的代码只显示一个附加句子,则您需要指定more_sentences

如果这不是问题的根源,请仔细检查total_examples=1more_sentences调用时的预期结果。