在尝试使用NLTK词性标注时,我注意到调用VBP
的输出中有很多nltk.pos_tag
个标记。我注意到这个标签不在Brown Corpus的语音标签集中。但它是UPenn标记集的一部分。
默认情况下nltk使用什么标记集?我无法在官方文档或apidocs中找到这个。
答案 0 :(得分:8)
Ntlk使用PennTreebank标记集。请查看此链接http://nltk.org/api/nltk.tag.html
答案 1 :(得分:5)
它使用Penn Treebank项目中使用的POS标签。您可以看到带有含义的标签列表 “http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html”