我试图了解普林斯顿Wordnet数据库中的不同标识符。我使用的是3.1版。您可以阅读结构here,但我的重点是 synsets 表。
Synset表synsets表是数据库中最重要的表之一。它负责容纳WordNet中的所有定义。 synset表中的每一行都有一个synsetid,一个定义,一个pos(词性字段)和一个lexdomainid(链接到lexdomain表)。在WordNet数据库中有117373个同义词。
当我在感官表中搜索单词joy
时,我发现有四种不同的结果(2个名词和2个字母)。从那里,我可以确定我正在寻找的意义/含义,这是与意义相对应的意义/含义:
“幸福的情感”
所以我现在找到了我正在寻找的结果。此结果的同义词ID 为107542591
,我可以搜索此ID以查找具有相同含义/含义的其他单词。
然而,当我使用Wordnet的一些在线版本并且我在synset中搜索“幸福的情感”中的单词时,我看到了不同类型的标识符。此标识符为07527352-n
。
例如,您可以在this site的左上角看到它。在同一个网站上,您会在地址栏中看到该标识符被称为同义词ID:&synset=07527352-n
。
我想知道如何检索给定synset的第二种标识符。我已经阅读了文档here并搜索了原始数据文件,但我无法弄明白。
谢谢!
答案 0 :(得分:1)
有两件事正在发生。
首先,MySQL不喜欢以0开头的ID,因此它们从1开始。(具体来说,名词得到1个前缀,动词2,形容词3和副词得到4个前缀:请参阅{{WordNet标识符部分} 3}})
其次,07542591来自WordNet 3.1(我已检查过原始WordNet文件和SQL文件,他们都使用此文件)。
" 07527352"来自旧版本的WordNet。在中文WordNet的情况下,我相信他们使用WordNet 3.0。 http://wordnet-rdf.princeton.edu/
附加:http://compling.hss.ntu.edu.sg/cow/有更多信息。奇怪的是,我还没有能够跟踪一个简单的3.0到3.1转换表......但我确定我已经看过了。