Question

我使用OpenNlp的训练API训练了一个超过一百万个句子的自定义NER模型，用于识别我所教授的技能。在测试过程中，我发现识别技能的模型和技能的子串。例如，我已经教过一项技巧和核心Java，如果这句话有单词＆＃39;核心＆＃39;然后我的模型会将其识别为技能。我想避免这种情况。我只想识别整个单词＆＃39; Core Java＆＃39;如果测试句中有整个单词。

如何针对上述结果改进我的自定义模型？

Answer 1

听起来您需要提供更多培训示例。

如果您的训练数据中出现单词Core的唯一时间是短语Core Java的一部分，那么您的模型可能会知道Core是100％技能名称的一部分概率，并基于它所知道的没有错。要修复它，请以不相关的方式添加更多训练数据。一些例子：

He threw away the apple core.
Core skills in math include addition and subtraction.
The core of the application is implemented in C for speed.

自定义NER模型提取用于培训的关键字的子字符串

1 个答案: