Question

我的数据有超过一百万行，并且在训练gensim相似性模型时，它正在制作多个.sav文件（model.sav，model.sav.0，model.sav.1等）。问题是在加载时，它仅加载一个子部分，而不是所有子部分，因此在预测中表现糟糕。 gensim文档中的参数/选项不起作用。

根据gensim文档-https://radimrehurek.com/gensim/similarities/docsim.html 另存为文件句柄并提供以下参数应该起作用-：

甚至试图-

try?

预期结果应提供语料库中所有匹配的文档，但这仅来自model.sav（加载时提到的文件）。它甚至不执行其他分片。我检查了每个分片的结果。

问题：我如何使用gensim模型的所有子文件来预测我的测试文档的相似性，而又不遍历每个子文件然后呈现这些结果的并集。

Answer 1

据我了解，“ model.sav”用作访问所有实际相似性分片的目录。

len（sims1）的输出是什么？在65,536个条目的语料库上运行上面的代码（恰好创建两个分片），我可以保存和加载语料库并检查它是否具有65,536个文档。我还可以添加文档并进一步保存/加载。