Question

我遇到了几种测量语义相似性的方法，这些方法使用WordNet的结构和层次结构，例如： Jiang和Conrath测量（JNC），Resnik测量（RES），Lin测量（LIN）等。

使用NLTK测量它们的方式是：

sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)

如果WordNet是计算语义相似性的基础，那么布朗语料库有什么用？

Answer 1

上的说明

具体来说，* _ic表示法是信息内容。

synset1.res_similarity（synset2，ic）：Resnik相似度：返回分数根据信息表示两个词义是多么相似最不常见的消费者（最具体的祖先）的内容（IC）节点）。请注意，对于使用信息的任何相似性度量内容，结果取决于用于生成的语料库信息内容和信息内容的具体细节创建了。

来自here的信息内容的更多信息：

测量单词感官IC的传统方法是结合从本体论的角度来理解他们的等级结构 WordNet上有关于它们在文本中的实际用法的统计信息一个大型语料库

Answer 2

代码中的brown_ic是指信息内容文件〜/ nltk_data / corpora / wordnet_ic / ic-brown.dat。有关ic-brown.dat格式的更多详细信息，请查看NLTK用户组中的this thread。

总的来说， ic-brown.dat 文件列出了布朗语料库中存在的每个单词及其信息内容值（与单词频率相关联）。

JC，Resnik和Lin的语义测量都需要使用除WordNet之外的语料库。这些措施将WordNet与语料库统计结合起来，与单独使用WordNet（Li 2006; Pedersen 2010）相比，它们可以更好地与人类判断相关联。