OpenNLP,不受支持的语言的培训命名实体识别:需要澄清

时间:2014-05-02 18:10:15

标签: opennlp named-entity-recognition

我想在一个特定的网域上试验NER,即用意大利语提取旅游优惠的位置名称。

到目前为止,我已经知道我需要自己准备训练集了,所以我打算把

<START:something><END>

标记了我的训练集中的一些优惠。

但是看看有关如何训练NER的OpenNLP文档,我最终遇到了几个问题:

1)在定义START / END标签时,我可以自由地使用标签内的任何名称(我在上面几行写“某些东西”)或者是否有一个受限制的设置被绑定?

2)我注意到对培训工具的调用

opennlp TokenNameFinderTrainer 

将表示语言的字符串作为第一个参数。那个有什么用?考虑到我想训练一个不受支持的意大利语模型,在我为NER训练之前还有其他任务要做吗?

1 个答案:

答案 0 :(得分:0)

1)是的,您可以指定多种类型。如果训练文件包含多种类型,则创建的模型也将能够检测这些多种类型。

2)我认为“lang”参数与其他命令具有相同的含义/用法(例如opennlp TokenizerTrainer -lang it ...