NLTK词性的缩写参考

时间:2015-06-17 02:16:12

标签: python nlp nltk

我使用nltk查找句子中每个单词的词性。它返回的缩写词我既不能完全直观,也无法找到好的文档。

运行:

import nltk
sample = "There is no spoon."
tokenized_words = nltk.word_tokenize(sample)
tagged_words = nltk.pos_tag(tokenized_words)
print tagged_words

返回:

[('There', 'EX'), ('is', 'VBZ'), ('no', 'DT'), ('spoon', 'NN'), ('.', '.')]

在上面的例子中,我正在寻找DTEX,其余的意思。

我到目前为止所做的最好的事情是在Natural Language Processing with Python中搜索关注缩写的提及,但必须有更好的东西。我也找到了一些基于文献的资源,但我不知道如何判断哪个nltk正在使用。

1 个答案:

答案 0 :(得分:6)

您已经提到的link有两个不同的标记集。

  

有关代码集文档,请参阅nltk.help.upenn_tagset()nltk.help.brown_tagset()

在此特定示例中,这些标记来自Penn Treebank tagset

您还可以通过以下方式阅读这些标签:

nltk.help.upenn_tagset('DT')
nltk.help.upenn_tagset('EX')