命名实体识别的数据集

时间:2017-08-22 13:23:10

标签: nlp dataset training-data named-entity-recognition

我必须为命名实体识别项目创建训练数据集。

例如,我有文字

"Last year, I was in London where I saw Tom"

培训数据应

"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw  
<ENAMEX TYPE="NAME">Tom</ENAMEX>"

手动操作很容易,但是当有大量数据时需要时间。我不能使用开放式套装。我有小的训练数据集,但我应该扩展它。

如何通过扩展小型训练数据集来创建更大的训练数据集?是否有一些现成的包或开放项目?或者你建议采用不同的方法吗?

1 个答案:

答案 0 :(得分:0)

首先,如果您还没有,请使用像brat这样的工具来加快注释速度。

因为看起来你标记的标记只能以一种方式使用,所以你可以列出它们并自动注释它们。例如,London始终是您所在的位置,因此您可以将London的所有实例替换为<ENAMEX TYPE="LOCATION">London</ENAMEX>。请注意不起作用的情况,如土耳其或中国(We ate turkey sandwiches off china plates.)。

有一个名为Prodigy的测试项目是为了让模型脱颖而出而设计的,虽然我没有机会尝试它,但值得一看。