我使用OpenNlp的训练API训练了一个超过一百万个句子的自定义NER模型,用于识别我所教授的技能。在测试过程中,我发现识别技能的模型和技能的子串。例如,我已经教过一项技巧和核心Java,如果这句话有单词'核心'然后我的模型会将其识别为技能。我想避免这种情况。我只想识别整个单词' Core Java'如果测试句中有整个单词。
如何针对上述结果改进我的自定义模型?
答案 0 :(得分:1)
听起来您需要提供更多培训示例。
如果您的训练数据中出现单词Core
的唯一时间是短语Core Java
的一部分,那么您的模型可能会知道Core
是100%技能名称的一部分概率,并基于它所知道的没有错。要修复它,请以不相关的方式添加更多训练数据。一些例子:
He threw away the apple core.
Core skills in math include addition and subtraction.
The core of the application is implemented in C for speed.