单词语义距离

时间:2017-11-01 21:03:48

标签: nlp dataset semantics hierarchical-data

我需要一个标记数据(人类判断)来表示许多夫妻(至少数百个)单词之间的结构/层次语义距离。

例如,d(计算机,电视)< d(广播,电视)< d(洗碗机,电视机)。

如果我们组织树形图或树中的所有单词,其中每个节点都是一个类别("电子设备","屏幕"等...)和单词在叶子中,数字将表示我们必须从一个单词到另一个单词的步数(节点)。

这样的数据集是否存在? 每对夫妇的评级是足够的,不需要有完整的嵌入/树/指定节点 (示例数据集将是:

电脑电视1

广播电视2

DishWasher Television 3

谢谢!

1 个答案:

答案 0 :(得分:1)

我现在已经知道了这样的人类判断数据集,但我想你可以像{strong> WordNet 一样看semantic networks这是一个图形形式的英语词汇数据库。给定两个单词,您可以计算在WordNet中表示它们的节点之间的距离。

  

名词和动词都被组织成层次结构,由...定义   hypernym或IS A关系。例如,一个词的意义   狗是在hypernym层次结构后发现的;同一级别的话   代表synset成员。每组同义词都有一个唯一索引。

dog, domestic dog, Canis familiaris
 canine, canid
  carnivore
   placental, placental mammal, eutherian, eutherian mammal
    mammal
     vertebrate, craniate
      chordate
       animal, animate being, beast, brute, creature, fauna
        ...

如果您正在寻找数据集,您也可以询问here