应用错误收集

单词之间相似性的最佳WordNet功能是什么？

时间：2015-04-22 22:28:25

标签： python nltk analysis wordnet

我的目标是找到约10,000字的单词之间的相似之处。我正在使用＆＃34; word.path_similarity（otherword）＆＃34; wordnet库的方法，但我得到的path_similarity的结果在0-0.1范围内，而不是分布在0-1。 10,000个随机单词之间的相似性如何才能在那个狭窄的范围内结束？

有没有更好的方法来使用WordNet来查找两个单词之间的相似性？

1 个答案:

答案 0 :(得分：3)

对于上下文，here's how this is calculated：

计算两个同义词/单词（包括）之间最短路径的长度。
将分数返回为1 / pathlen

因此，分数<.2表示路径长度＆gt; 5个步骤。包含两个输入同义词，这意味着它们之间至少有4个同义词。

话虽如此：你的抱怨似乎是“根据这个指标，随机选择的两个词一直是无关的！发生了什么事？”那么，你的相似性指标告诉你随机词通常不是密切相关的。这不应该是那么令人惊讶。你为什么要计算随机词之间的相似性？