单词之间相似性的最佳WordNet功能是什么?

时间:2015-04-22 22:28:25

标签: python nltk analysis wordnet

我的目标是找到约10,000字的单词之间的相似之处。我正在使用" word.path_similarity(otherword)" wordnet库的方法,但我得到的path_similarity的结果在0-0.1范围内,而不是分布在0-1。 10,000个随机单词之间的相似性如何才能在那个狭窄的范围内结束?

有没有更好的方法来使用WordNet来查找两个单词之间的相似性?

1 个答案:

答案 0 :(得分:3)

对于上下文,here's how this is calculated

  1. 计算两个同义词/单词(包括)之间最短路径的长度。

  2. 将分数返回为1 / pathlen

  3. 因此,分数<.2表示路径长度&gt; 5个步骤。包含两个输入同义词,这意味着它们之间至少有4个同义词。

    话虽如此:你的抱怨似乎是“根据这个指标,随机选择的两个词一直是无关的!发生了什么事?”那么,你的相似性指标告诉你随机词通常不是密切相关的。这不应该是那么令人惊讶。你为什么要计算随机词之间的相似性?