保存word2vec模型会导致文件混乱

时间:2019-11-15 19:03:36

标签: word2vec

以word2vec文本格式保存word2vec会得到一个其中包含奇怪字符的文件。

What the saved word2vec text file looks like

word2vec文件的内容是从中提取向量的。

Cleaned and tokenized text

在尝试在类比测试中使用矢量文件之前,我没有任何错误。该文字最初来自东非在线报纸。

我的代码:

word2vec = gensim.models.Word2Vec(all_words, min_count=3, workers = 2)
save_as_1 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.txt"
save_as_2 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.bin"
word2vec.wv.save_word2vec_format(save_as_1, binary = "FALSE")
word2vec.wv.save_word2vec_format(save_as_2, binary = "TRUE")
vocabulary = word2vec.wv.vocab
print("Vectors: ")
print(vocabulary)
sim_words = word2vec.wv.most_similar('woman')
print("Words most similar to woman are: " + str(sim_words))

我想创建嵌入的正确文本文件。

1 个答案:

答案 0 :(得分:1)

您必须为binary参数提供布尔值:

word2vec.wv.save_word2vec_format(save_as_1, binary = False)

您的代码无效,因为任何非空字符串的求值为True