带注释语料库的句子分割

时间:2017-09-25 17:37:30

标签: opennlp corpus named-entity-recognition

我有一个OpenNLP格式的自定义注释语料库。例如:

<START:Person> John <END> went to <START:Location> London <END>. He visited <START:Organisation> ACME Co <END> in the afternoon.

我需要的是从这个语料库中分割句子。但由于注释,它不会像预期的那样工作。

如何在不丢失实体注释的情况下完成?

我正在使用OpenNLP。

1 个答案:

答案 0 :(得分:0)

如果您想为OpenNLP创建多个NLP模型,您需要多种格式来训练它们:

因此,您需要以某种方式管理这些不同的注记图层。

我创建了一个注释工具和一个Maven插件来帮助你这样做,看看here。所有信息都可以存储在一个文件中,Maven插件将为您生成NLP模型。

如果您还有其他问题,请与我们联系。