我对WordNet数据文件格式有疑问。 wndb(5)手册页部分地说:
源/目标字段区分词汇和语义指针。它是一个四字节字段,包含两个两位十六进制整数。前两位数字表示当前(源)synset中的字数,后两位数字表示目标synset中的字数。值0000表示pointer_symbol表示当前(源)synset与synset_offset指示的目标synset之间的语义关系。
不同同义词中两个单词之间的词汇关系由源和目标单词数中的非零值表示。该字段的第一个和最后两个字节分别表示源和目标同义词中的单词数,关系成立。字符号从左到右分配给同义词集中的单词字段,从1开始。
当源/目标数字非零时,我理解第二段,但源/目标为“0000”时的含义仍然不清楚。
让我举一个“贵族”这个词的例子。 index.noun
条目是:
贵族n 1 4 @〜#m + 1 0 09807754
和相应的data.noun条目是:
09807754 18 n 03 aristocrat 0 blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102~09840639 n 0000~09872782 n 0000~10083823 n 0000~10175090 n 0000~10285135 n 0000~10472799 n 0000~10474064 n 0000~10505732 n 0000~10506642 n 0000 |贵族成员
第一个“ptr”是:
@ 09623038 n 0000
并且data.noun
条目以:
09623038 18 n 01 leader 0 058 @ 00007846 n 0000 ...
我不清楚这种关系适用于哪个词。上位词(“@”)关系是否仅适用于目标synset中所有单词的原始单词(“aristrocrat”)(在这种情况下,只有“leader”)?
对于目标synset中的所有单词,源synset中的所有单词(“贵族”,“蓝血”和“贵族”)的关系是否成立?
答案 0 :(得分:1)
对于源synset中的所有单词与目标synset中的所有单词的关系确实成立。
这并不意味着领导者永远是贵族的上位,但是对于被认为是贵族(贵族的成员)和被认为是领导者的感觉(一个统治或指导或激励他人的人)而言,它是正确的。 。有些关系听起来很奇怪,但WordNet并不完美,也不可能。