POS标记 - NLTK认为名词是动词

时间:2016-11-30 16:57:13

标签: python nltk

在下面的代码中,为什么nltk认为'select'是形容词而不是动词?

>>> import nltk
>>> t = nltk.tokenize.word_tokenize("select icon from icon")
>>> nltk.tag.pos_tag(t)
[('select', 'JJ'), ('icon', 'NN'), ('from', 'IN'), ('icon', 'NN')]

1 个答案:

答案 0 :(得分:1)

我想没有简单的答案,因为Tagger是用统计模型训练的(我发现它是用Penn Treebank here上的Back-off Trigram Markov模型训练的。)

我可以想象"从图标中选择图标"在训练语料库中是非常罕见的(如果它发生的话),所以看第一个单词,除了新句子的开头之外没有更多的语境信息,它最可能指定JJ标签

如果这对您来说是一个很大的问题,您可以考虑在语料库中训练自己的标记器,这些句子会出现更多这类句子,或使用this之类的东西来丰富旧句子。