应用错误收集

时间：2017-09-15 16:48:48

标签： python gensim word2vec google-news fasttext

我目前正在使用Google新闻语料库培训的Word2Vec模型（来自here）由于这只是在2013年之前接受新闻培训，我需要更新载体，并根据2013年后的新闻在词汇表中添加新词。

假设我在2013年之后有新的新闻集。我可以重新训练或微调或更新Google新闻Word2Vec模型吗？可以用Gensim完成吗？可以使用FastText完成吗？

答案 0 :(得分：1)

它与您想要的完全相同：以下是链接所说的内容：

逐步训练分类模型或单词矢量模型。

./ fasttext [监督| skipgram | cbow] -input train.data -inputModel trained.model.bin -output re-trained [other options] -incr

-incr代表增量训练。

在训练单词嵌入时，可以从头开始每次都使用所有数据，或者仅使用新数据。对于分类，人们可以从头开始训练，使用预先训练的单词嵌入所有数据，或者仅使用新数据，而不更改单词嵌入。

增量训练实际上意味着，已经完成了我们之前获得的数据训练模型，并使用我们获得的更新数据重新训练模型，而不是从头开始。

答案 1 :(得分：0)

可以。我最近也一直在努力。

编辑：GloVe在训练时需要计算co-occurence矩阵并将其存储在内存中的开销。培训word2vec相对容易