自定义NER模型提取用于培训的关键字的子字符串

时间:2017-07-04 06:59:30

标签: nlp opennlp named-entity-recognition

我使用OpenNlp的训练API训练了一个超过一百万个句子的自定义NER模型,用于识别我所教授的技能。在测试过程中,我发现识别技能的模型和技能的子串。例如,我已经教过一项技巧和核心Java,如果这句话有单词'核心'然后我的模型会将其识别为技能。我想避免这种情况。我只想识别整个单词' Core Java'如果测试句中有整个单词。

如何针对上述结果改进我的自定义模型?

1 个答案:

答案 0 :(得分:1)

听起来您需要提供更多培训示例。

如果您的训练数据中出现单词Core的唯一时间是短语Core Java的一部分,那么您的模型可能会知道Core是100%技能名称的一部分概率,并基于它所知道的没有错。要修复它,请以不相关的方式添加更多训练数据。一些例子:

He threw away the apple core.
Core skills in math include addition and subtraction.
The core of the application is implemented in C for speed.