Question

我想在一个特定的网域上试验NER，即用意大利语提取旅游优惠的位置名称。

到目前为止，我已经知道我需要自己准备训练集了，所以我打算把

<START:something><END>

标记了我的训练集中的一些优惠。

但是看看有关如何训练NER的OpenNLP文档，我最终遇到了几个问题：

1）在定义START / END标签时，我可以自由地使用标签内的任何名称（我在上面几行写“某些东西”）或者是否有一个受限制的设置被绑定？

2）我注意到对培训工具的调用

opennlp TokenNameFinderTrainer

将表示语言的字符串作为第一个参数。那个有什么用？考虑到我想训练一个不受支持的意大利语模型，在我为NER训练之前还有其他任务要做吗？

Answer 1

1）是的，您可以指定多种类型。如果训练文件包含多种类型，则创建的模型也将能够检测这些多种类型。

2）我认为“lang”参数与其他命令具有相同的含义/用法（例如opennlp TokenizerTrainer -lang it ...）