为gensim模型提高KeyError(“单词'%s'不在词汇表中”%word)

时间:2019-07-23 05:20:00

标签: python gensim word2vec similarity

我从http://vectors.nlpl.eu/repository/#加载了一个基于gensim的连续跳过模型,该模型基于Google新闻2013构建,词汇量为2883863。但是,我在尝试获得相似性的任意两个随机单词时收到一条错误消息

from gensim.models.keyedvectors import KeyedVectors
model = KeyedVectors.load_word2vec_format(r'C:\Users\Projects\NLPL\model.txt', binary=False)
model.similarity('president','minister')

在加载模型时,我还尝试使用二进制文件而不是txt文件,但这也不起作用。

model = KeyedVectors.load_word2vec_format(r'C:\Users\Projects\NLPL\model.bin', binary=True)

对于相似性得分,我尝试在参数中使用unicode字符,但这也不起作用。

model.similarity(u'president',u'minister')

我很确定这是一个巨大的语料库,应该使用这些单词,并且不确定为什么我没有得到结果。我还尝试了其他一些常见的单词,例如weapon,军事,汽车等,但有相同的错误消息。

0 个答案:

没有答案