我正在尝试使用gensim训练文本的编码。我运行文本超过5000次迭代(文档长约250,000字,Gensim训练超过7500个频繁的单词),每次迭代的总计训练损失从那时的约800,000减少到4,000。也就是说,在绘制时,很明显培训提前结束,进一步培训可以减少损失。但是,当我加载回保存的模型并运行训练时:
model = Word2Vec.load("encodings")
model.train(lines, total_examples=model.corpus_count, epochs=model.iter, compute_loss=True, callbacks=[logLoss, saveModel])
训练似乎从头开始,初始训练错误约为800,000,并减少到4,000。我使用model.save("encodings")
保存模型,并且保存的模型似乎至少部分训练为单词矢量相似性似乎有些合理。我想进一步训练我的编码,但这不起作用。 (注意,最初训练我的编码时间更长,即。iter=10000
并没有改善我的损失(从800,000开始到4,000结束)。在这段延长的时间内减少初始alpha或min_alpha也无济于事初始培训是:
model = Word2Vec(lines, min_count=2, size=300, workers=8, sg=1, iter=5000, compute_loss=True, callbacks=[logLoss, saveModel])