训练Word2Vec模型时,会创建三个输出。
我对这些模型有几个问题。
这些输出如何相互不同?
如果我想访问经过培训的结果,请查看哪个模型?
提前致谢!
答案 0 :(得分:0)
这些是由gensim Word2Vec
.save()
函数创建的3个文件。 model
文件是主模型的Python pickle;其他文件是为了提高效率而单独存储的一些过大的numpy数组。 syn0
碰巧包含原始单词向量,以及syn1neg
模型的内部权重 - 但如果没有其他数据,它们都不能完全解释。
因此,重新加载它们的唯一支持是使用匹配的.load()
函数,所有这三个都可用。成功的重新load()
将导致模型对象与save()
d的模型对象一样,并且您将通过该加载的对象访问结果。
(如果仅需要原始字词向量,您还可以使用.save_word2vec_format()
方法,该方法以与原始Google版本word2vec.c
兼容的格式进行写入但是,该格式的信息严格少于gensim
本机保存的信息,因此如果您绝对需要与其他软件兼容,则只能使用它。使用{{1}原生文件确保您以后可以随时保存其他格式,而不能以其他方式保存。)