我正在研究为日本NER创建培训数据。
想知道我是否需要预先标记化训练数据,或者有没有办法在模型创建过程中指定Tokenizer?
在下面的示例中,日语没有任何空格:
<START:person> Pierre Vinken <END> 61 years old will join the board as a nonexecutive director Nov. 29 .
<START:person> Pierre Vinken <END> は11月29日、非執行取締役として理事に就任する。
这是否可用于训练模型或我是否需要提供标记化的训练句子?
答案 0 :(得分:1)
要找到相关文档有点困难,但OpenNLP希望将训练数据预先标记化,请参阅here:
可以将数据转换为OpenNLP名称查找器培训格式。每行一句话。其他一些格式也可用。该句子必须被标记化并包含标记实体的跨度。
这也可以从您给出的英语示例中推断出来,因为在最后一段时间之前有一个空格。通常,CRF培训数据通常是预先标记的,因为这使得跨软件包的评估更容易。
一旦句子被标记化,OpenNLP应该可以正常使用日语,因为它并不关心字符串是什么。
答案 1 :(得分:0)
https://www.rondhuit.com/apache-opennlp-1-9-0-ja-ner.html
我发现此链接可能对您有用。您可以下载日语的预培训NRE