保存和加载gensim相似模型制作的多个碎片

时间:2019-10-30 06:28:27

标签: python model gensim

我的数据有超过一百万行,并且在训练gensim相似性模型时,它正在制作多个.sav文件(model.sav,model.sav.0,model.sav.1等)。问题是在加载时,它仅加载一个子部分,而不是所有子部分,因此在预测中表现糟糕。 gensim文档中的参数/选项不起作用。

根据gensim文档-https://radimrehurek.com/gensim/similarities/docsim.html 另存为文件句柄并提供以下参数应该起作用-:

  1. model.save(fname_or_handle,分别=无)
  2. model.load(文件路径,mmap ='r')

甚至试图-

  1. 修复.sav文件(此文件仅对第一个分片进行腌制,即对model.sav进行腌制)
  2. 将所有子部分压缩为.gz文件(此压缩仅压缩一个分片,而不压缩所有子部分),并且还会产生某种咸菜错误。
try?

预期结果应提供语料库中所有匹配的文档,但这仅来自model.sav(加载时提到的文件)。它甚至不执行其他分片。我检查了每个分片的结果。

问题:我如何使用gensim模型的所有子文件来预测我的测试文档的相似性,而又不遍历每个子文件然后呈现这些结果的并集。

1 个答案:

答案 0 :(得分:0)

据我了解,“ model.sav”用作访问所有实际相似性分片的目录。

len(sims1)的输出是什么?在65,536个条目的语料库上运行上面的代码(恰好创建两个分片),我可以保存和加载语料库并检查它是否具有65,536个文档。我还可以添加文档并进一步保存/加载。