如何使用WordNet路径算法计算两个字符串中单词的语义相似度

时间:2015-07-05 07:14:49

标签: algorithm path wordnet sentence-similarity

我有一串单词说s1。我在其他集合中也有多个字符串,例如s2,s3,s4。

我想将字符串s1中的单词与每个字符串s2,s3等匹配。基于最大相似度得分,我想找到s2,s3中哪些字符串与s1最大匹配。

我想使用wordNet的PATH算法。请建议,最佳方法应该是什么。

1 个答案:

答案 0 :(得分:3)

要在WordNet中使用路径相似性,首先需要使用WordNet中的synset消除每个词的歧义。然后,您可以计算两个文本的基于WordNet的相似性。

this paper中,他们使用Wu-Palmer路径相似性将其称为概念相似性。他们基本上将同义词视为文本中的概念,并将Wu-Palmer路径相似度视为概念相似性度量。

如果 p q 是两个文本,C_pC_q是这两个文本中对应的一组同义词,概念相似度为2文本计算:

ss(p, q) = \frac{\sum_{c_1 \in C_p}{\max_{c_2 \in C_q} s(c_1, c_2)}}{| C_p |}

哪个s(c_1, c_2)是两个同义词的Wu-palmer相似性。