将POS标签从TextBlob转换为Wordnet兼容输入

时间:2014-07-26 20:58:32

标签: python tags nlp nltk textblob

我使用Python和nltk + Textblob进行文本分析。有趣的是,您可以为wordnet添加POS以使您更具体地搜索同义词,但不幸的是,nltk和Textblob中的标记都不是"兼容"与wordnet对它的synset类所期望的那种输入。

示例 Wordnet.synsets()要求你提供的POS是n,v,a,r之一,就像这样

wn.synsets("dog", POS="n,v,a,r")

但是upenn_treebank的标准POS标签看起来像是

JJ, VBD, VBZ, etc.

所以我正在寻找一种在两者之间进行转换的好方法。

除了暴力之外,有没有人知道这种转换的好方法?

2 个答案:

答案 0 :(得分:2)

如果textblob正在使用PennTreeBank(ptb)标记集,则只需使用POS标记中的第一个字符映射到WN pos标记。

WN POS标记集包含'a'=形容词/副词,'s'=卫星形容词,'n'=名词和'v'=动词。

尝试:

>>> from nltk import word_tokenize, pos_tag
>>> from nltk.corpus import wordnet as wn
>>> text = 'this is a pos tagset in some foo bar paradigm'
>>> pos_tag(word_tokenize(text))
[('this', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('pos', 'NN'), ('tagset', 'NN'), ('in', 'IN'), ('some', 'DT'), ('foo', 'NN'), ('bar', 'NN'), ('paradigm', 'NN')]
>>> for tok, pos in pos_tag(word_tokenize(text)):
...     pos = pos[0].lower()
...     if pos in ['a', 'n', 'v']:
...             wn.synsets(tok, pos)
... 
[Synset('be.v.01'), Synset('be.v.02'), Synset('be.v.03'), Synset('exist.v.01'), Synset('be.v.05'), Synset('equal.v.01'), Synset('constitute.v.01'), Synset('be.v.08'), Synset('embody.v.02'), Synset('be.v.10'), Synset('be.v.11'), Synset('be.v.12'), Synset('cost.v.01')]
[Synset('polonium.n.01'), Synset('petty_officer.n.01'), Synset('po.n.03'), Synset('united_states_post_office.n.01')]
[]
[]
[Synset('barroom.n.01'), Synset('bar.n.02'), Synset('bar.n.03'), Synset('measure.n.07'), Synset('bar.n.05'), Synset('prevention.n.01'), Synset('bar.n.07'), Synset('bar.n.08'), Synset('legal_profession.n.01'), Synset('stripe.n.05'), Synset('cake.n.01'), Synset('browning_automatic_rifle.n.01'), Synset('bar.n.13'), Synset('bar.n.14'), Synset('bar.n.15')]
[Synset('paradigm.n.01'), Synset('prototype.n.01'), Synset('substitution_class.n.01'), Synset('paradigm.n.04')]

答案 1 :(得分:0)

这是一个将 U Penn Treebank 标签转换为 Wordnet 标签 (a,v,r,n) 的简单函数:

Penn2Wn = lambda t='VB': t[0].lower() if t[0] in ('V','R','J') else 'n'

就像在@alvas 帖子中一样,如果合适,它采用第一个字符的较小值,或默认为 'n'。您可以通过以下方式进行测试:

Penn2Wn('VB')
Penn2Wn('PRP')