NER语料库的注释训练数据

时间:2016-05-23 12:48:01

标签: nlp opennlp corpus training-data named-entity-recognition

在opennlp的文档中提到我们用15000系列训练我们的模型以获得良好的性能。 现在,我已经从文档中提取了不同的实体,这意味着我需要为训练数据(15000行)中的许多令牌添加不同的标签,这将耗费大量时间。有没有其他方法可以做到这一点?这将减少我可以进行的时间或任何其他方法。

感谢。

4 个答案:

答案 0 :(得分:3)

答案 1 :(得分:2)

这个也值得一试:

brat rapid annotation tool

我自己使用它并推荐它。

答案 2 :(得分:1)

注释需要时间,需要熟悉实体领域的人。没有办法解决这个问题。

在一天结束时,注释必须采用opennlp可识别的格式。 opennlp文档中的基本格式如下:

  

可以将数据转换为OpenNLP名称查找器培训格式。每行一句话。其他一些格式也可用。该句子必须被标记化并包含标记实体的跨度。文档由空行分隔,触发自适应特征生成器的重置。训练文件可以包含多种类型。如果训练文件包含多种类型,则创建的模型也将能够检测这些多种类型。目前,建议仅训练单一型号,因为多类型支持仍处于试验阶段。

因此,如果您使用其他答案中提到的工具之一,则需要确保opennlp可以读取该格式或将该格式转换为可识别的格式。

答案 3 :(得分:1)

对不起,这里确实没有好的解决方法。我们不得不为过去的项目多次执行此操作,有时我们很幸运能够让贴标人为我们工作以获取手动注释的数据集构建,其余时间我们自己完成。

  

此外,我不建议您确实需要15k数据项   从低至1-2k开始并测试性能,基于   特殊情况,你可能会对结果感到惊讶。

现在要构建你的数据集,最初我们使用普通的旧Excel工作表,很快就变成了一场噩梦,excel不是为这样的任务设计的,看着1000行文本和excel在excel中是非常痛苦的。 / p>

以下是我推荐的一些工具:

Dataturks https://dataturks.com:非常易于使用的在线工具,提供直观的用户界面,您可以让团队同时处理数据集。输出与openNLP,coreNLP等完全兼容。

GATE http://gate.ac.uk/:很好的旧工具。下载到您的本地机器,运行良好,设置有点痛苦。

BRAT http://brat.nlplab.org/:一个可下载的开源工具,可以很好地进行标记。

希望这会有所帮助,快乐标记:)