使用自定义语料库训练NLTK中的NER模型

时间:2017-03-09 21:55:57

标签: python nlp nltk named-entity-recognition

我在conll2002格式中有一个带注释的语料库,即一个制表符分隔文件,带有一个标记,pos-tag和IOB标记,后跟实体标记。例如:

  

John NNP B-PERSON

我想在NLTK中训练葡萄牙语 NER模型,最好是MaxEnt模型。我想要在NLTK中使用“内置”Stanford NER,因为我已经能够使用独立的Stanford NER。我想使用MaxEnt模型作为斯坦福NER的比较。

我找到NLTK-trainer,但我无法使用它。

我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:4)

nltk book的第6章和第7章解释了如何在IOB编码的语料库上训练“chunker”。第7章中的例子进行了NP分块,但这是偶然的 - 你的chunker将无论你训练什么都会大块。您需要确定哪些功能对命名实体识别有用;第6章介绍了为分类器选择功能的基础知识。最后,查看nltk自己的named entity chunker使用的功能的来源。他们可能也会用葡萄牙语做得很好;然后你可以尝试添加词干或其他葡萄牙语特有的功能。