Gensin Doc2Vec 模型的增量/持续模型训练

时间:2021-07-28 05:04:45

标签: deep-learning nlp gensim doc2vec

我有一个在大约 1000 个文档上训练的 gensim doc2vec 模型。现在我必须通过添加 100 个新标记的文档来逐步更新这个现有模型。我无法逐步重新训练此模型。任何人都可以帮助我。

1 个答案:

答案 0 :(得分:0)

Gensim 的 Doc2Vec 没有任何官方支持将文档(或其中可能包含的新词或标签)添加到现有的 Doc2Vec 模型。

你应该:

  • 通过将这些文档(与训练数据标记化相同)提供给方法 .infer_vector(),使用推理获得新文档的完整文档向量。这使用类似训练的过程为新文本创建一个好的向量,保持模型的所有其他内容,例如其已知词汇,保持不变。 (因此,新文档中的任何新词都将被忽略。)生成的向量应该与原始模型训练创建的其他向量或从同一模型推断的其他向量非常有用。
  • 从头开始重新训练模型,同时使用所有新旧文档。 (只有 1000 个文档,需要多长时间?)

.infer_vector() 的 API 文档位于:

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector

在使用小.infer_vector()语料库的微教程中有一些使用Lee的例子:

https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html

另请注意,使用 Gensim Doc2Vec 中的“段落向量”算法发布的结果往往包含数万到数百万个文档的语料库。只有 1000 个,可能很难从这个算法中得到好的结果,这得益于非常大、非常多样化的训练数据。