我想在一个特定的网域上试验NER,即用意大利语提取旅游优惠的位置名称。
到目前为止,我已经知道我需要自己准备训练集了,所以我打算把
<START:something><END>
标记了我的训练集中的一些优惠。
但是看看有关如何训练NER的OpenNLP文档,我最终遇到了几个问题:
1)在定义START / END标签时,我可以自由地使用标签内的任何名称(我在上面几行写“某些东西”)或者是否有一个受限制的设置被绑定?
2)我注意到对培训工具的调用
opennlp TokenNameFinderTrainer
将表示语言的字符串作为第一个参数。那个有什么用?考虑到我想训练一个不受支持的意大利语模型,在我为NER训练之前还有其他任务要做吗?
答案 0 :(得分:0)
1)是的,您可以指定多种类型。如果训练文件包含多种类型,则创建的模型也将能够检测这些多种类型。
2)我认为“lang”参数与其他命令具有相同的含义/用法(例如opennlp TokenizerTrainer -lang it ...
)