应用错误收集

时间：2018-01-18 04:25:37

标签： word2vec gensim doc2vec

我想通过gensim培训doc2vec模型，但我的语料库太大了。是否有任何方法来训练每批句子语料库？例如，迭代加载一些语料库并在其上训练模型，并重新加载另一批语料库....

我不知道是否有任何api或方法可以做到这一点。任何提示？

答案 0 :(得分：0)

您的语料库中有多少个唯一字词/ doc-tags，以及模型中的size维度？

这些值有助于模型的不可约束的必要大小，必须适合可寻址的内存。

您如何向Doc2Vec提供语料库？

它可以采用可重新启动的可迭代对象来从磁盘传输文本示例，因此完整的语料库不需要在内存中。因此，如果这是你的问题，一个更好的语料库可迭代，返回TaggedDocuments，可以解决你的内存问题。