我的目标是找到约10,000字的单词之间的相似之处。我正在使用" word.path_similarity(otherword)" wordnet库的方法,但我得到的path_similarity的结果在0-0.1范围内,而不是分布在0-1。 10,000个随机单词之间的相似性如何才能在那个狭窄的范围内结束?
有没有更好的方法来使用WordNet来查找两个单词之间的相似性?
答案 0 :(得分:3)
对于上下文,here's how this is calculated:
计算两个同义词/单词(包括)之间最短路径的长度。
将分数返回为1 / pathlen
因此,分数<.2表示路径长度&gt; 5个步骤。包含两个输入同义词,这意味着它们之间至少有4个同义词。
话虽如此:你的抱怨似乎是“根据这个指标,随机选择的两个词一直是无关的!发生了什么事?”那么,你的相似性指标告诉你随机词通常不是密切相关的。这不应该是那么令人惊讶。你为什么要计算随机词之间的相似性?