继续培训Doc2Vec模型

时间:2015-05-10 19:04:33

标签: neural-network gensim

Gensim的official tutorial明确指出可以继续训练(加载)模型。我知道根据文档,无法继续训练从word2vec格式加载的模型。但即使从头开始生成模型然后尝试调用train方法,也无法访问提供给LabeledSentence的{​​{1}}实例的新创建标签。

train

是否可以继续使用新句子在Gensim中训练Doc2Vec模型?如果是这样,怎么能实现呢?

2 个答案:

答案 0 :(得分:4)

我的理解是,任何新标签都无法做到这一点。我们只能在新数据与旧数据具有相同标签时继续培训。因此,我们正在训练或重新调整已学习词汇的权重,但无法学习新的词汇。

在培训期间添加新标签/单词/句子也存在类似的问题:https://groups.google.com/forum/#!searchin/word2vec-toolkit/online $ 20word2vec / word2vec-toolkit / L9zoczopPUQ / _Zmy57TzxUQJ

此外,您可能希望密切关注此讨论: https://groups.google.com/forum/#!topic/gensim/UZDkfKwe9VI

更新:如果您想为已经训练的模型添加新单词,请在此处查看在线word2vec: http://rutumulkar.com/blog/2015/word2vec/

答案 1 :(得分:1)

根据gensim文档,doc2vec不支持在线/增量培训。

参考https://github.com/RaRe-Technologies/gensim/issues/1019

我仍然可以将新文档添加到现有的doc2vec模型中(但有些文档由于分段错误而崩溃)但是大多数类似的查询不适用于新添加的文档(因此这种方法似乎毫无用处)。

相关问题