example training excersize使用简单的split(' ')
标记后标记单项名称。
我需要训练并识别包含空格的名字。如何训练识别器?
示例:“我看到一棵大红苹果树。” - 我如何为训练进行标记,然后识别“大红苹果树”而不是识别四个单独的单词?
这是否适合培训数据?
I\tO
saw\tO
a\tO
Big Red Apple Tree\tMyName
.\tO
识别器的输出看起来是否与此相同?
常见问题解答中的培训部分说“培训文件解析器不是很宽容:您应该确保每行只包含内容字段和制表符。空格不起作用。”
答案 0 :(得分:1)
您要解决的问题属于短语识别。您可以通过不同的方式标记单词。例如,您可以使用IOB标记标记单词。将stanford ner模型训练到这个新创建的数据上。编写后处理步骤以连接预测数据。
例如:
您的训练数据应如下所示:
I\tO
saw\tO
a\tO
Big\tB-MyName
Red\tI-MyName
Apple\tI-MyName
Tree\tO-MyName
.\tO<br/>
所以基本上,您使用[ 0, B-MyName , I-MyName , O-MyName ]
作为标记。
我解决了类似的问题,效果很好。但请确保您有足够的数据来训练它。