如何训练斯坦福NER为包含空间的名字?

时间:2016-10-25 21:12:18

标签: named-entity-recognition

example training excersize使用简单的split(' ')标记后标记单项名称。

我需要训练并识别包含空格的名字。如何训练识别器?

示例:“我看到一棵大红苹果树。” - 我如何为训练进行标记,然后识别“大红苹果树”而不是识别四个单独的单词?

这是否适合培训数据?

I\tO
saw\tO
a\tO
Big Red Apple Tree\tMyName
.\tO

识别器的输出看起来是否与此相同?

常见问题解答中的培训部分说“培训文件解析器不是很宽容:您应该确保每行只包含内容字段和制表符。空格不起作用。”

1 个答案:

答案 0 :(得分:1)

您要解决的问题属于短语识别。您可以通过不同的方式标记单词。例如,您可以使用IOB标记标记单词。将stanford ner模型训练到这个新创建的数据上。编写后处理步骤以连接预测数据。

例如:
您的训练数据应如下所示:

I\tO
saw\tO
a\tO
Big\tB-MyName
Red\tI-MyName
Apple\tI-MyName
Tree\tO-MyName
.\tO<br/>

所以基本上,您使用[ 0, B-MyName , I-MyName , O-MyName ]作为标记。 我解决了类似的问题,效果很好。但请确保您有足够的数据来训练它。