我想通过gensim培训doc2vec模型,但我的语料库太大了。 是否有任何方法来训练每批句子语料库?例如,迭代加载一些语料库并在其上训练模型,并重新加载另一批语料库....
我不知道是否有任何api或方法可以做到这一点。任何提示?
答案 0 :(得分:0)
您的语料库中有多少个唯一字词/ doc-tags,以及模型中的size
维度?
这些值有助于模型的不可约束的必要大小,必须适合可寻址的内存。
您如何向Doc2Vec
提供语料库?
它可以采用可重新启动的可迭代对象来从磁盘传输文本示例,因此完整的语料库不需要在内存中。因此,如果这是你的问题,一个更好的语料库可迭代,返回TaggedDocuments,可以解决你的内存问题。
有关制作正确的可迭代对象的更多信息,请参阅https://rare-technologies.com/data-streaming-in-python-generators-iterators-iterables/。