我有一个带有我预先计算的单词向量的文本文件,格式如下(例子):
word -0.0762464299711 0.0128308048976 ... 0.0712385589283\n’
(用297个额外的浮点数代替...
)。我试图用Gensim加载这些作为KeyedVectors,因为我最终想要计算余弦相似度,找到最相似的单词,等等。不幸的是我之前没有和Gensim一起工作过,从文档来看它并不是很清楚我该怎么做我尝试过以下here:
word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)
然而,这会产生以下错误:
ValueError: invalid literal for int() with base 10: 'the'
'所述'是文本文件中的第一个单词,所以我怀疑加载函数是否期望某些东西不存在。但我无法找到有关应该存在的信息。我非常感谢指向这些信息的指针或我的问题的任何其他解决方案。谢谢!
答案 0 :(得分:2)
您可以看到here Word2Vec格式的示例。 第一行应该包含文件中的单词数,后跟向量的维度。这可能是您的脚本返回错误的原因。
在你的例子中:
1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283