我已经使用gensim的wmdistance()函数和预先训练的模型计算了两个句子之间的距离
现在,我想让它们之间具有相似性,并尝试使用n_similarity()函数,但是发生了密钥错误
keyerror:单词不在词汇表中
请问有人对此有想法吗?
答案 0 :(得分:0)
当您发现单词不在词汇表中时,这意味着该单词不在该模型中。
任何尝试查找它的操作都会生成一个KeyError
,以通知您您正在尝试获取不存在的单词向量。
在将令牌列表传递到n_similarity()
之前,您应该对其进行过滤,以仅包括有效单词。
当然,这意味着您无法获得关于'selfie'
一词的有意义的结果。对模型来说,这是无稽之谈,就像您要输入'asruhfglaiwurfliuawiufsdfsdfs'
一词一样。