Question

我正在尝试衡量令牌之间的相似性。我正在使用默认的en模型。当使用单数名词时，相似性度量按预期工作，但在使用复数相同的名词时返回零。

nlp = spacy.load('en')
doc = nlp('apple orange')
doc[0].similarity(doc[1])

返回0.56189166448170025

doc = nlp('apples oranges')
doc[0].similarity(doc[1])

返回0.0

我需要实施任何预处理步骤才能使度量正常工作吗？感谢。

Answer 1

我认为它没有支持短语相似性;一个hacky替代方案是对你的短语进行标记，其中的分数将是每个标记的相似度的平均值。或者，您可以使用短语相似性here。