Gensim Doc2Vec保留模型状态并恢复训练

时间:2018-10-02 17:06:21

标签: gensim training-data resuming-training

我正在使用非常大的语料库训练gensim Doc2Vec,并且在语料库上迭代5次时,需要20-22个小时的时间来迭代20次。 我在网上搜索,但找不到一种方法可以让模型持久化,比如说3trd迭代,后来又从同一迭代中恢复。

这是执行训练的代码的一部分:

#corpus is lazily initialized list of training lines
d2v = doc2vec.Doc2Vec(min_count=15,
                      window=10,
                      vector_size=300,
                      workers=15,
                      alpha=0.025,
                      min_alpha=0.00025,
                      dm=1)

d2v.build_vocab(corpus)

for epoch in range(20):
    d2v.train(corpus, total_examples=d2v.corpus_count, epochs=d2v.iter)
    d2v.alpha -= 0.0002
    d2v.min_alpha = d2v.alpha

如果有人有兴趣,我可以提供其余的

0 个答案:

没有答案