应用错误收集

可以将数据转换为OpenNLP名称查找器培训格式。每行一句话。其他一些格式也可用。该句子必须被标记化并包含标记实体的跨度。文档由空行分隔，触发自适应特征生成器的重置。训练文件可以包含多种类型。如果训练文件包含多种类型，则创建的模型也将能够检测这些多种类型。目前，建议仅训练单一型号，因为多类型支持仍处于试验阶段。

因此，如果您使用其他答案中提到的工具之一，则需要确保opennlp可以读取该格式或将该格式转换为可识别的格式。

答案 3 :(得分：1)

对不起，这里确实没有好的解决方法。我们不得不为过去的项目多次执行此操作，有时我们很幸运能够让贴标人为我们工作以获取手动注释的数据集构建，其余时间我们自己完成。

此外，我不建议您确实需要15k数据项从低至1-2k开始并测试性能，基于特殊情况，你可能会对结果感到惊讶。

现在要构建你的数据集，最初我们使用普通的旧Excel工作表，很快就变成了一场噩梦，excel不是为这样的任务设计的，看着1000行文本和excel在excel中是非常痛苦的。 / p>

以下是我推荐的一些工具：

Dataturks ：https://dataturks.com：非常易于使用的在线工具，提供直观的用户界面，您可以让团队同时处理数据集。输出与openNLP，coreNLP等完全兼容。

GATE ：http://gate.ac.uk/：很好的旧工具。下载到您的本地机器，运行良好，设置有点痛苦。

BRAT ：http://brat.nlplab.org/：一个可下载的开源工具，可以很好地进行标记。

希望这会有所帮助，快乐标记：）