Question

我有一个带有我预先计算的单词向量的文本文件，格式如下（例子）：

word -0.0762464299711 0.0128308048976 ... 0.0712385589283\n’

每个单词的每一行

（用297个额外的浮点数代替...）。我试图用Gensim加载这些作为KeyedVectors，因为我最终想要计算余弦相似度，找到最相似的单词，等等。不幸的是我之前没有和Gensim一起工作过，从文档来看它并不是很清楚我该怎么做我尝试过以下here：

word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)

然而，这会产生以下错误：

ValueError: invalid literal for int() with base 10: 'the'

＆＃39;所述＆＃39;是文本文件中的第一个单词，所以我怀疑加载函数是否期望某些东西不存在。但我无法找到有关应该存在的信息。我非常感谢指向这些信息的指针或我的问题的任何其他解决方案。谢谢！

Answer 1

您可以看到here Word2Vec格式的示例。第一行应该包含文件中的单词数，后跟向量的维度。这可能是您的脚本返回错误的原因。

在你的例子中：

1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283