LCH相似度 - 需要相同的POS?蟒蛇

时间:2017-08-04 15:58:51

标签: python nlp nltk similarity wordnet

比较wordnet相似性度量以查看哪个与我的语料库最相关/最有用 - 在尝试计算lch时遇到此错误消息 -

“计算lch相似度需要Synset('home'.n.01)和Synset('chronological.a.01')具有相同的词性。”

在尝试使用lch之前,是否必须将列表中的所有单词规范化为同一个POS?

作为参考,我能够在没有任何POS规范化的情况下成功计算wup_similarity。我试图计算相似度的单词列表都使用WordNetLemmatizer进行了词典化。

1 个答案:

答案 0 :(得分:0)

您无法通过更改词性来解决此问题,因为并非所有单词都可以是任何词性。 "时间"例如,不能是名词。

一种方法是捕获这样的异常,或者检查不同的词性,并指定相似度为零。

WordNet还有时通过模拟不同词性的共享根来处理这个问题,这可能是你的一些相似性措施有效的原因。但是,工作方式is confusing,所以你可能不应该依赖它。

如果您想要任意单词的相似性,请尝试使用单词向量(Word2Vec或GloVe)而不是WordNet。