我正在使用非常大的语料库训练gensim Doc2Vec,并且在语料库上迭代5次时,需要20-22个小时的时间来迭代20次。 我在网上搜索,但找不到一种方法可以让模型持久化,比如说3trd迭代,后来又从同一迭代中恢复。
这是执行训练的代码的一部分:
#corpus is lazily initialized list of training lines
d2v = doc2vec.Doc2Vec(min_count=15,
window=10,
vector_size=300,
workers=15,
alpha=0.025,
min_alpha=0.00025,
dm=1)
d2v.build_vocab(corpus)
for epoch in range(20):
d2v.train(corpus, total_examples=d2v.corpus_count, epochs=d2v.iter)
d2v.alpha -= 0.0002
d2v.min_alpha = d2v.alpha
如果有人有兴趣,我可以提供其余的