Question

我正在尝试构建一个自定义NER模型来提取印度名称。但是我缺少训练数据（我只有名单）。

所以我考虑创建自己的语料库，使用以下行替换每个名称

Hi How are you <START:person> Hardik <END> 
<START:person> Hardik <END>  is a great personality
Contributions from <START:person> Hardik <END>  are very important
<START:person> Hardik <END>  believes in honesty
Meek and tidy soul, <START:person> Hardik <END> derives happiness from all opportunities.

我为我拥有的3000个名字中的每一个都这样做，因此最终得到了大约15K的语料库。

但是现在当我尝试运行我的代码时，将其用作我的测试数据

This employment is for Hardik

我最终获得了这样的输出

[0..1) person  This
[1..2) person  employment
[2..3) person  is
[3..4) person  for
[4..5) person  Hardik

文档中的每个单词都被抛出为person。这是overfitting/noise的一个例子。我真的很困惑，为什么它的表现就像这样，即使单词没有注释那样

在Apache OpenNLP中训练自定义命名实体识别器的问题

0 个答案: