以word2vec文本格式保存word2vec会得到一个其中包含奇怪字符的文件。
word2vec文件的内容是从中提取向量的。
在尝试在类比测试中使用矢量文件之前,我没有任何错误。该文字最初来自东非在线报纸。
我的代码:
word2vec = gensim.models.Word2Vec(all_words, min_count=3, workers = 2)
save_as_1 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.txt"
save_as_2 = "daily_nation_" + str(subject) + "_" + str(startyr) + "_" + str(endyr) + "_vectors.bin"
word2vec.wv.save_word2vec_format(save_as_1, binary = "FALSE")
word2vec.wv.save_word2vec_format(save_as_2, binary = "TRUE")
vocabulary = word2vec.wv.vocab
print("Vectors: ")
print(vocabulary)
sim_words = word2vec.wv.most_similar('woman')
print("Words most similar to woman are: " + str(sim_words))
我想创建嵌入的正确文本文件。
答案 0 :(得分:1)
您必须为binary
参数提供布尔值:
word2vec.wv.save_word2vec_format(save_as_1, binary = False)
您的代码无效,因为任何非空字符串的求值为True
。