Question

我正在研究为日本NER创建培训数据。

想知道我是否需要预先标记化训练数据，或者有没有办法在模型创建过程中指定Tokenizer？

在下面的示例中，日语没有任何空格：

<START:person> Pierre Vinken <END> 61 years old will join the board as a nonexecutive director Nov. 29 .

<START:person> Pierre Vinken <END> は11月29日、非執行取締役として理事に就任する。

这是否可用于训练模型或我是否需要提供标记化的训练句子？

Answer 1

要找到相关文档有点困难，但OpenNLP希望将训练数据预先标记化，请参阅here：

可以将数据转换为OpenNLP名称查找器培训格式。每行一句话。其他一些格式也可用。该句子必须被标记化并包含标记实体的跨度。

这也可以从您给出的英语示例中推断出来，因为在最后一段时间之前有一个空格。通常，CRF培训数据通常是预先标记的，因为这使得跨软件包的评估更容易。

一旦句子被标记化，OpenNLP应该可以正常使用日语，因为它并不关心字符串是什么。

Answer 2

https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html

我发现此链接可能对您有用。您可以下载日语的预培训NRE

在OpenNLP中创建日语NER培训模型？

2 个答案: