我目前正在使用Google新闻语料库培训的Word2Vec模型(来自here) 由于这只是在2013年之前接受新闻培训,我需要更新载体,并根据2013年后的新闻在词汇表中添加新词。
假设我在2013年之后有新的新闻集。我可以重新训练或微调或更新Google新闻Word2Vec模型吗?可以用Gensim完成吗?可以使用FastText完成吗?
答案 0 :(得分:1)
你可以看看这个: https://github.com/facebookresearch/fastText/pull/423
它与您想要的完全相同: 以下是链接所说的内容:
逐步训练分类模型或单词矢量模型。
./ fasttext [监督| skipgram | cbow] -input train.data -inputModel trained.model.bin -output re-trained [other options] -incr
-incr代表增量训练。
在训练单词嵌入时,可以从头开始每次都使用所有数据,或者仅使用新数据。对于分类,人们可以从头开始训练,使用预先训练的单词嵌入所有数据,或者仅使用新数据,而不更改单词嵌入。
增量训练实际上意味着,已经完成了我们之前获得的数据训练模型,并使用我们获得的更新数据重新训练模型,而不是从头开始。
答案 1 :(得分:0)