我在conll2002格式中有一个带注释的语料库,即一个制表符分隔文件,带有一个标记,pos-tag和IOB标记,后跟实体标记。例如:
John NNP B-PERSON
我想在NLTK中训练葡萄牙语 NER模型,最好是MaxEnt模型。我不想要在NLTK中使用“内置”Stanford NER,因为我已经能够使用独立的Stanford NER。我想使用MaxEnt模型作为斯坦福NER的比较。
我找到NLTK-trainer,但我无法使用它。
我怎样才能做到这一点?
答案 0 :(得分:4)
nltk book的第6章和第7章解释了如何在IOB编码的语料库上训练“chunker”。第7章中的例子进行了NP分块,但这是偶然的 - 你的chunker将无论你训练什么都会大块。您需要确定哪些功能对命名实体识别有用;第6章介绍了为分类器选择功能的基础知识。最后,查看nltk自己的named entity chunker使用的功能的来源。他们可能也会用葡萄牙语做得很好;然后你可以尝试添加词干或其他葡萄牙语特有的功能。