Brown Corpus在测量基于WordNet的语义相似度方面有什么用?

时间:2013-09-09 19:45:58

标签: nlp similarity wordnet corpus semantic-analysis

我遇到了几种测量语义相似性的方法,这些方法使用WordNet的结构和层次结构,例如: Jiang和Conrath测量(JNC),Resnik测量(RES),Lin测量(LIN)等。

使用NLTK测量它们的方式是:

sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)

如果WordNet是计算语义相似性的基础,那么布朗语料库有什么用?

2 个答案:

答案 0 :(得分:10)

查看NLTK howto for wordnet.

上的说明

具体来说,* _ic表示法是信息内容

  

synset1.res_similarity(synset2,ic):Resnik相似度:返回分数   根据信息表示两个词义是多么相似   最不常见的消费者(最具体的祖先)的内容(IC)   节点)。请注意,对于使用信息的任何相似性度量   内容,结果取决于用于生成的语料库   信息内容和信息内容的具体细节   创建了。

来自here信息内容的更多信息:

  

测量单词感官IC的传统方法是结合   从本体论的角度来理解他们的等级结构   WordNet上有关于它们在文本中的实际用法的统计信息   一个大型语料库

答案 1 :(得分:4)

代码中的brown_ic是指信息内容文件〜/ nltk_data / corpora / wordnet_ic / ic-brown.dat。有关ic-brown.dat格式的更多详细信息,请查看NLTK用户组中的this thread

总的来说, ic-brown.dat 文件列出了布朗语料库中存在的每个单词及其信息内容值(与单词频率相关联)。

JC,Resnik和Lin的语义测量都需要使用除WordNet之外的语料库。这些措施将WordNet与语料库统计结合起来,与单独使用WordNet(Li 2006; Pedersen 2010)相比,它们可以更好地与人类判断相关联。