在OpenNLP中创建日语NER培训模型?

时间:2018-05-07 17:39:09

标签: opennlp cjk ner

我正在研究为日本NER创建培训数据。

想知道我是否需要预先标记化训练数据,或者有没有办法在模型创建过程中指定Tokenizer?

在下面的示例中,日语没有任何空格:

<START:person> Pierre Vinken <END> 61 years old will join the board as a nonexecutive director Nov. 29 .

<START:person> Pierre Vinken <END> は11月29日、非執行取締役として理事に就任する。

这是否可用于训练模型或我是否需要提供标记化的训练句子?

2 个答案:

答案 0 :(得分:1)

要找到相关文档有点困难,但OpenNLP希望将训练数据预先标记化,请参阅here

  

可以将数据转换为OpenNLP名称查找器培训格式。每行一句话。其他一些格式也可用。该句子必须被标记化并包含标记实体的跨度。

这也可以从您给出的英语示例中推断出来,因为在最后一段时间之前有一个空格。通常,CRF培训数据通常是预先标记的,因为这使得跨软件包的评估更容易。

一旦句子被标记化,OpenNLP应该可以正常使用日语,因为它并不关心字符串是什么。

答案 1 :(得分:0)

https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html

我发现此链接可能对您有用。您可以下载日语的预培训NRE