应用错误收集

使用自定义语料库训练NLTK中的NER模型

时间：2017-03-09 21:55:57

标签： python nlp nltk named-entity-recognition

我在conll2002格式中有一个带注释的语料库，即一个制表符分隔文件，带有一个标记，pos-tag和IOB标记，后跟实体标记。例如：

John NNP B-PERSON

我想在NLTK中训练葡萄牙语 NER模型，最好是MaxEnt模型。我不想要在NLTK中使用“内置”Stanford NER，因为我已经能够使用独立的Stanford NER。我想使用MaxEnt模型作为斯坦福NER的比较。

我找到NLTK-trainer，但我无法使用它。

我怎样才能做到这一点？

1 个答案:

答案 0 :(得分：4)

nltk book的第6章和第7章解释了如何在IOB编码的语料库上训练“chunker”。第7章中的例子进行了NP分块，但这是偶然的 - 你的chunker将无论你训练什么都会大块。您需要确定哪些功能对命名实体识别有用;第6章介绍了为分类器选择功能的基础知识。最后，查看nltk自己的named entity chunker使用的功能的来源。他们可能也会用葡萄牙语做得很好;然后你可以尝试添加词干或其他葡萄牙语特有的功能。