在Apache OpenNLP中训练自定义命名实体识别器的问题

时间:2017-01-18 14:17:30

标签: nlp opennlp training-data named-entity-recognition

我正在尝试构建一个自定义NER模型来提取印度名称。但是我缺少训练数据(我只有名单)。

所以我考虑创建自己的语料库,使用以下行替换每个名称

Hi How are you <START:person> Hardik <END> 
<START:person> Hardik <END>  is a great personality
Contributions from <START:person> Hardik <END>  are very important
<START:person> Hardik <END>  believes in honesty
Meek and tidy soul, <START:person> Hardik <END> derives happiness from all opportunities.

我为我拥有的3000个名字中的每一个都这样做,因此最终得到了大约15K的语料库。

但是现在当我尝试运行我的代码时,将其用作我的测试数据

This employment is for Hardik

我最终获得了这样的输出

[0..1) person  This
[1..2) person  employment
[2..3) person  is
[3..4) person  for
[4..5) person  Hardik

文档中的每个单词都被抛出为person。这是overfitting/noise的一个例子。我真的很困惑,为什么它的表现就像这样,即使单词没有注释那样

0 个答案:

没有答案