Question

nltk软件包的内置词性标注器似乎没有针对我的用例（here, for instance）进行优化。 source code here表示它正在使用名为maxent_treebank_pos_tagger的已保存的预训练分类器。

创建maxent_treebank_pos_tagger/english.pickle的内容是什么？我猜测那里有一个标记语料库用于训练这个标记器，所以我想我正在寻找（a）标记语料库和（b）基于标记训练标记器的确切代码语料库。

除了大量的谷歌搜索，到目前为止，我试图直接查看.pickle对象，以找到其中的任何线索，从这个开始

from nltk.data import load
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle")
dir(x)

Answer 1

培训数据：Penn Tree银行语料库的华尔街日报子集

算法：最大熵