我遇到了几种测量语义相似性的方法,这些方法使用WordNet的结构和层次结构,例如: Jiang和Conrath测量(JNC),Resnik测量(RES),Lin测量(LIN)等。
使用NLTK测量它们的方式是:
sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)
如果WordNet是计算语义相似性的基础,那么布朗语料库有什么用?
答案 0 :(得分:10)
具体来说,* _ic表示法是信息内容。
synset1.res_similarity(synset2,ic):Resnik相似度:返回分数 根据信息表示两个词义是多么相似 最不常见的消费者(最具体的祖先)的内容(IC) 节点)。请注意,对于使用信息的任何相似性度量 内容,结果取决于用于生成的语料库 信息内容和信息内容的具体细节 创建了。
来自here的信息内容的更多信息:
测量单词感官IC的传统方法是结合 从本体论的角度来理解他们的等级结构 WordNet上有关于它们在文本中的实际用法的统计信息 一个大型语料库
答案 1 :(得分:4)
代码中的brown_ic是指信息内容文件〜/ nltk_data / corpora / wordnet_ic / ic-brown.dat。有关ic-brown.dat格式的更多详细信息,请查看NLTK用户组中的this thread。
总的来说, ic-brown.dat 文件列出了布朗语料库中存在的每个单词及其信息内容值(与单词频率相关联)。
JC,Resnik和Lin的语义测量都需要使用除WordNet之外的语料库。这些措施将WordNet与语料库统计结合起来,与单独使用WordNet(Li 2006; Pedersen 2010)相比,它们可以更好地与人类判断相关联。