是什么创造了`maxent_treebank_pos_tagger / english.pickle`?

时间:2015-07-13 14:33:54

标签: python-2.7 nlp nltk part-of-speech

nltk软件包的内置词性标注器似乎没有针对我的用例(here, for instance)进行优化。 source code here表示它正在使用名为maxent_treebank_pos_tagger的已保存的预训练分类器。

创建maxent_treebank_pos_tagger/english.pickle的内容是什么?我猜测那里有一个标记语料库用于训练这个标记器,所以我想我正在寻找(a)标记语料库和(b)基于标记训练标记器的确切代码语料库。

除了大量的谷歌搜索,到目前为止,我试图直接查看.pickle对象,以找到其中的任何线索,从这个开始

from nltk.data import load
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")
dir(x)

1 个答案:

答案 0 :(得分:6)

NLTK来源为https://github.com/nltk/nltk/blob/develop/nltk/tag/init.py#L83

NLTK的MaxEnt POS标记器的原始来源是https://github.com/arne-cl/nltk-maxent-pos-tagger

培训数据:Penn Tree银行语料库的华尔街日报子集

功能Ratnaparki (1996)

算法:最大熵

准确性What is the accuracy of nltk pos_tagger?