句子相似性 - 如何使用WordNet计算子母体的深度?

时间:2016-05-25 00:02:31

标签: word similarity

我尝试建立一个工具来计算两个单词之间的相似性,我发现曼彻斯特城市大学有一个公式如下:

Formula for word similarity from Manchester research group

到目前为止,我仍然很困惑如何在分层语义网中获得h,这是潜水员的深度。 根据我的理解,h是从顶部单词到某个单词的路径长度,作为作者的参考,顶部单词是' entity'对于NOUN。 但是ADJ,ADV,VERB等另一种词怎么样? 如果我们已经有了顶级单词,我们如何列出从它到我们需要计算的单词的路径

该论文位于以下链接:https://www.researchgate.net/profile/Keeley_Crockett/publication/232645326_Sentence_Similarity_Based_on_Semantic_Nets_and_Corpus_Statistics/links/0deec51b8db68f19fa000000.pdf

真的很感激任何答案。 感谢

2 个答案:

答案 0 :(得分:0)

每当我试图理解Wordnet层次结构时,我发现某些东西会使我之前假设的一切无效:) 关于相似之处,如果您使用的是Python和NLTK,我建议您使用提供的相似性度量标准,如果没有,那么这些可能是了解事情如何运作的良好开端。

在此链接中,向下滚动至相似性: http://www.nltk.org/howto/wordnet.html

答案 1 :(得分:0)

我想添加更多我刚刚发现的细节。 这些细节足以供我搜索,但可能与上述问题不完全相同,但我认为我需要分享给将来需要它的人。

  1. '实体'不仅是名词的根,也是任何词的根,即使它是VERB,ADJ,ADV .......

    • 单词的完整路径' kiss': ROOT #n#1<实体#n#1<抽象#n#6< psychological_feature#n#1<事件#n#1<行为#n#2<触摸#n#5<吻#N#1
    • 单词的完整路径' ROOT #n#1<实体#n#1<抽象#n#6< psychological_feature#n#1<事件#n#1<行为#n#2< speech_act#n#1<异议#n#2<踢#N#4
  2. 要计算任何单词的深度,我们需要从头开始计算单词(' entity')并基于Word Net分层数据库。
  3. 回到上面的例子,h(' kiss'' kick')的subummer的长度是6,这是从顶部树节点根到单词& #39;动作'