nltk中pos_tag和UnigramTagger以及BigramTagger有什么区别?

时间:2018-01-02 09:17:26

标签: python nlp nltk n-gram

我想在nltk上弄脏手。我指的是http://victoria.lviv.ua/../NaturalLanguageProcessingWithPython.pdf。它声明nltk.pos_tag函数将词性分配给单词列表中的每个单词,并作为参数传递给它。

继续前进,我发现还有nltk.DefaultTaggernltk.RegexpTaggernltk.UnigramTaggernltk.BigramTagger

我很困惑,为什么我们需要这些标记器,因为nltk.pos_tag在标记词性方面做得很好。此外,哪个标记器nltk.pos_tag在内部用于标记。

提前致谢。

1 个答案:

答案 0 :(得分:1)

默认nltk.pos_tag

  • 预先培训的PerceptronTagger模型
  • 在OntoNotes 5的华尔街日报部分的第00-18节进行了培训。

数据和演练文档可在以下网址找到:

UnigramTaggerBigramTagger是不包含预先训练过的模型的类对象。

NLTK书的第5章提供了可用的{+ 3}} POS标签:

  • DefaultTagger:第5章,第4.1节
  • RegexpTagger:第5章,第4.2节
  • NgramTagger:第5章,第5.3节