微调预训练的word2vec谷歌新闻

时间:2017-09-15 16:48:48

标签: python gensim word2vec google-news fasttext

我目前正在使用Google新闻语料库培训的Word2Vec模型(来自here) 由于这只是在2013年之前接受新闻培训,我需要更新载体,并根据2013年后的新闻在词汇表中添加新词。

假设我在2013年之后有新的新闻集。我可以重新训练或微调或更新Google新闻Word2Vec模型吗?可以用Gensim完成吗?可以使用FastText完成吗?

2 个答案:

答案 0 :(得分:1)

你可以看看这个: https://github.com/facebookresearch/fastText/pull/423

它与您想要的完全相同: 以下是链接所说的内容:

逐步训练分类模型或单词矢量模型。

  

./ fasttext [监督| skipgram | cbow] -input train.data -inputModel trained.model.bin -output re-trained [other options] -incr

-incr代表增量训练。

在训练单词嵌入时,可以从头开始每次都使用所有数据,或者仅使用新数据。对于分类,人们可以从头开始训练,使用预先训练的单词嵌入所有数据,或者仅使用新数据,而不更改单词嵌入。

增量训练实际上意味着,已经完成了我们之前获得的数据训练模型,并使用我们获得的更新数据重新训练模型,而不是从头开始。

答案 1 :(得分:0)

可以。我最近也一直在努力。

编辑:GloVe在训练时需要计算co-occurence矩阵并将其存储在内存中的开销。培训word2vec相对容易