我从http://vectors.nlpl.eu/repository/#
加载了一个基于gensim的连续跳过模型,该模型基于Google新闻2013构建,词汇量为2883863。但是,我在尝试获得相似性的任意两个随机单词时收到一条错误消息
from gensim.models.keyedvectors import KeyedVectors
model = KeyedVectors.load_word2vec_format(r'C:\Users\Projects\NLPL\model.txt', binary=False)
model.similarity('president','minister')
在加载模型时,我还尝试使用二进制文件而不是txt
文件,但这也不起作用。
model = KeyedVectors.load_word2vec_format(r'C:\Users\Projects\NLPL\model.bin', binary=True)
对于相似性得分,我尝试在参数中使用unicode字符,但这也不起作用。
model.similarity(u'president',u'minister')
我很确定这是一个巨大的语料库,应该使用这些单词,并且不确定为什么我没有得到结果。我还尝试了其他一些常见的单词,例如weapon
,军事,汽车等,但有相同的错误消息。