gensim会创建扩展名为.bin.trainables.syn1neg.npy和.bin.wv.vectors.npy以及.bin的文件

时间:2018-10-23 04:28:29

标签: python-2.7 gensim word2vec

我正在使用python gensim为我的9300万个句子创建word2vec。但是,当我训练模型时,除了.bin之外,我还得到了三个扩展名为.bin.trainables.syn1neg.npy和.bin.wv.vectors.npy的文件作为输出。我仔细查看了此处提供的答案:Why are multiple model files created in gensim word2vec?,说明了为什么会发生这种情况。但是我想知道是否可以将这些文件转换为普通的单个bin文件吗?

1 个答案:

答案 0 :(得分:2)

.save()有一个可选参数,称为sep_limit,默认值为10MiB,它控制使用单独文件的阈值。您可以尝试将此值设置为更大的值-大于所看到的任何其他文件-并且只要模型仍然足够小以至于不超过pickle()限制,它就可以工作。

但是,gensim会将模型保存到多个文件中,以提高效率,并确保不破坏Python pickle()中的大小限制。您应该尽可能将文件作为一组保存在一起。它们将始终具有您作为.save()的名称提供的相同共享前缀。