标签: python nltk
在下面的代码中,为什么nltk认为'select'是形容词而不是动词?
>>> import nltk >>> t = nltk.tokenize.word_tokenize("select icon from icon") >>> nltk.tag.pos_tag(t) [('select', 'JJ'), ('icon', 'NN'), ('from', 'IN'), ('icon', 'NN')]
答案 0 :(得分:1)
我想没有简单的答案,因为Tagger是用统计模型训练的(我发现它是用Penn Treebank here上的Back-off Trigram Markov模型训练的。)
我可以想象"从图标中选择图标"在训练语料库中是非常罕见的(如果它发生的话),所以看第一个单词,除了新句子的开头之外没有更多的语境信息,它最可能指定JJ标签
JJ
如果这对您来说是一个很大的问题,您可以考虑在语料库中训练自己的标记器,这些句子会出现更多这类句子,或使用this之类的东西来丰富旧句子。