我需要一个标记数据(人类判断)来表示许多夫妻(至少数百个)单词之间的结构/层次语义距离。
例如,d(计算机,电视)< d(广播,电视)< d(洗碗机,电视机)。
如果我们组织树形图或树中的所有单词,其中每个节点都是一个类别("电子设备","屏幕"等...)和单词在叶子中,数字将表示我们必须从一个单词到另一个单词的步数(节点)。
这样的数据集是否存在? 每对夫妇的评级是足够的,不需要有完整的嵌入/树/指定节点 (示例数据集将是:
电脑电视1
广播电视2
DishWasher Television 3
谢谢!
答案 0 :(得分:1)
我现在已经知道了这样的人类判断数据集,但我想你可以像{strong> WordNet 一样看semantic networks这是一个图形形式的英语词汇数据库。给定两个单词,您可以计算在WordNet中表示它们的节点之间的距离。
名词和动词都被组织成层次结构,由...定义 hypernym或IS A关系。例如,一个词的意义 狗是在hypernym层次结构后发现的;同一级别的话 代表synset成员。每组同义词都有一个唯一索引。
dog, domestic dog, Canis familiaris canine, canid carnivore placental, placental mammal, eutherian, eutherian mammal mammal vertebrate, craniate chordate animal, animate being, beast, brute, creature, fauna ...
如果您正在寻找数据集,您也可以询问here。