如何获得给出偏移ID的WordNet synset?

时间:2011-11-10 09:50:51

标签: python python-2.7 nlp nltk wordnet

我有一个WordNet synset偏移量(例如id="n#05576222")。鉴于此偏移量,我如何使用Python获取synset?

4 个答案:

答案 0 :(得分:17)

从NLTK 3.2.3开始,有一种公开的方法:

wordnet.synset_from_pos_and_offset(pos, offset)

在早期版本中,您可以使用:

wordnet._synset_from_pos_and_offset(pos, offset)

这将根据它的POS和offest ID返回一个synset。我认为这种方法仅适用于NLTK 3.0,但我不确定。

示例:

from nltk.corpus import wordnet as wn
wn._synset_from_pos_and_offset('n',4543158)
>> Synset('wagon.n.01')

答案 1 :(得分:12)

对于NTLK 3.2.3或更新版本,请参阅donners45的答案。

对于旧版本的NLTK:

NLTK中没有内置方法,但你可以使用它:

from nltk.corpus import wordnet

syns = list(wordnet.all_synsets())
offsets_list = [(s.offset(), s) for s in syns]
offsets_dict = dict(offsets_list)

offsets_dict[14204095]
>>> Synset('heatstroke.n.01')

然后,您可以挑选字典并在需要时加载它。

对于3.0之前的NLTK版本,请替换

offsets_list = [(s.offset(), s) for s in syns]

offsets_list = [(s.offset, s) for s in syns]

因为在NLTK 3.0之前offset是属性而不是方法。

答案 2 :(得分:1)

除了使用NLTK之外,另一种选择是使用来自Open Multilingual WordNet http://compling.hss.ntu.edu.sg/omw/的.tab文件用于普林斯顿WordNet。通常我使用下面的方法来访问wordnet作为字典,其中offset作为键,;分隔字符串作为值:

# Gets first instance of matching key given a value and a dictionary.    
def getKey(dic, value):
  return [k for k,v.split(";") in dic.items() if v in value]

# Read Open Multi WN's .tab file
def readWNfile(wnfile, option="ss"):
  reader = codecs.open(wnfile, "r", "utf8").readlines()
  wn = {}
  for l in reader:
    if l[0] == "#": continue
    if option=="ss":
      k = l.split("\t")[0] #ss as key
      v = l.split("\t")[2][:-1] #word
    else:
      v = l.split("\t")[0] #ss as value
      k = l.split("\t")[2][:-1] #word as key
    try:
      temp = wn[k]
      wn[k] = temp + ";" + v
    except KeyError:
      wn[k] = v  
  return wn

princetonWN = readWNfile('wn-data-eng.tab')
offset = "n#05576222"
offset = offset.split('#')[1]+'-'+ offset.split('#')[0]

print princetonWN.split(";")
print getKey('heatstroke')

答案 3 :(得分:1)

您可以使用of2ss(),例如:

from nltk.corpus import wordnet as wn
syn = wn.of2ss('01580050a')

会回来 Synset('necessary.a.01')