我正在尝试构建一个自定义NER模型来提取印度名称。但是我缺少训练数据(我只有名单)。
所以我考虑创建自己的语料库,使用以下行替换每个名称
Hi How are you <START:person> Hardik <END>
<START:person> Hardik <END> is a great personality
Contributions from <START:person> Hardik <END> are very important
<START:person> Hardik <END> believes in honesty
Meek and tidy soul, <START:person> Hardik <END> derives happiness from all opportunities.
我为我拥有的3000个名字中的每一个都这样做,因此最终得到了大约15K的语料库。
但是现在当我尝试运行我的代码时,将其用作我的测试数据
This employment is for Hardik
我最终获得了这样的输出
[0..1) person This
[1..2) person employment
[2..3) person is
[3..4) person for
[4..5) person Hardik
文档中的每个单词都被抛出为person
。这是overfitting/noise
的一个例子。我真的很困惑,为什么它的表现就像这样,即使单词没有注释那样