Spacy令牌中的相似度量

时间:2017-09-21 17:38:47

标签: nlp spacy

我正在尝试衡量令牌之间的相似性。我正在使用默认的en模型。当使用单数名词时,相似性度量按预期工作,但在使用复数相同的名词时返回零。

nlp = spacy.load('en')
doc = nlp('apple orange')
doc[0].similarity(doc[1])

返回0.56189166448170025

doc = nlp('apples oranges')
doc[0].similarity(doc[1])

返回0.0

我需要实施任何预处理步骤才能使度量正常工作吗?感谢。

1 个答案:

答案 0 :(得分:0)

我认为它没有支持短语相似性;一个hacky替代方案是对你的短语进行标记,其中的分数将是每个标记的相似度的平均值。或者,您可以使用短语相似性here