我想在nltk上弄脏手。我指的是http://victoria.lviv.ua/../NaturalLanguageProcessingWithPython.pdf。它声明nltk.pos_tag
函数将词性分配给单词列表中的每个单词,并作为参数传递给它。
继续前进,我发现还有nltk.DefaultTagger
,nltk.RegexpTagger
,nltk.UnigramTagger
和nltk.BigramTagger
。
我很困惑,为什么我们需要这些标记器,因为nltk.pos_tag
在标记词性方面做得很好。此外,哪个标记器nltk.pos_tag
在内部用于标记。
提前致谢。
答案 0 :(得分:1)
默认nltk.pos_tag
是
PerceptronTagger
模型数据和演练文档可在以下网址找到:
UnigramTagger
和BigramTagger
是不包含预先训练过的模型的类对象。
NLTK书的第5章提供了可用的{+ 3}} POS标签:
DefaultTagger
:第5章,第4.1节RegexpTagger
:第5章,第4.2节NgramTagger
:第5章,第5.3节