Maxent POS标签表

时间:2011-11-17 23:13:42

标签: python nlp nltk

我使用nltk.pos_tag进行使用maxent part of speech tagger的词性标注。我需要一张包含所有可用标签的表格。

我的最终目标是从文本中提取副词和形容词。

感谢任何帮助。

由于

2 个答案:

答案 0 :(得分:4)

pos_tag,根据其文档字符串,使用“NLTK目前推荐的词性标记器”,因此此建议的有效性可能会过期。要获得可重现的结果,请使用明确的POS标记对象。

查看source code for pos_tag,我们可以看到它调用

>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')

我们可以通过

获取POS标签列表
>>> _.classifier().labels()
['PRP$', 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ',
 'DT', '#', 'RP', '$', 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':',
 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-',
 'EX', 'IN', 'WP$', 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']

(我必须承认,我发现这是使用对象检查和反复试验。)

形容词和副词至少是类别JJ(adj)和RB(adv),加上也许VBN(过去分词,例如“累”)。

答案 1 :(得分:1)

尝试:

import nltk
nltk.help.upenn_tagset()
# and
nltk.help.brown_tagset()