我想训练提取人名的模型(NER系统的一部分),但我想让这个模型无壳(我的意思是模型不会考虑字母案例,大写和小写字母之间没有区别),因为我有嘈杂的文字。
那么训练步骤中是否有任何参数可以做到这一点,或者其他任何方式?
答案 0 :(得分:2)
如果你必须使用OpenNLP,我想你可以训练无模式训练数据的新模型。在训练新模型之前,只需采用现有的任何现有培训数据(带有适当的注释等)并小写所有内容。
或者,如果您可以使用Stanford NER而不是OpenNLP,您可以使用Stanford NER的预训练无壳英语模型:http://nlp.stanford.edu/software/CRF-NER.shtml#Models
无论您采用哪种方式,请记住,使用无壳模型会降低您的准确度。