在具有预训练模型的gensim中,wmdistance运行良好,但n_similarity却不行

时间:2020-03-21 07:42:28

标签: gensim

我已经使用gensim的wmdistance()函数和预先训练的模型计算了两个句子之间的距离

现在,我想让它们之间具有相似性,并尝试使用n_similarity()函数,但是发生了密钥错误

keyerror:单词不在词汇表中

显示错误示例的屏幕截图 screenshoot of error example

请问有人对此有想法吗?

1 个答案:

答案 0 :(得分:0)

当您发现单词不在词汇表中时,这意味着该单词不在该模型中。

任何尝试查找它的操作都会生成一个KeyError,以通知您您正在尝试获取不存在的单词向量。

在将令牌列表传递到n_similarity()之前,您应该对其进行过滤,以仅包括有效单词。

当然,这意味着您无法获得关于'selfie'一词的有意义的结果。对模型来说,这是无稽之谈,就像您要输入'asruhfglaiwurfliuawiufsdfsdfs'一词一样。