Question

example training excersize使用简单的split(' ')标记后标记单项名称。

我需要训练并识别包含空格的名字。如何训练识别器？

示例：“我看到一棵大红苹果树。” - 我如何为训练进行标记，然后识别“大红苹果树”而不是识别四个单独的单词？

这是否适合培训数据？

I\tO
saw\tO
a\tO
Big Red Apple Tree\tMyName
.\tO

识别器的输出看起来是否与此相同？

常见问题解答中的培训部分说“培训文件解析器不是很宽容：您应该确保每行只包含内容字段和制表符。空格不起作用。”

Answer 1

您要解决的问题属于短语识别。您可以通过不同的方式标记单词。例如，您可以使用IOB标记标记单词。将stanford ner模型训练到这个新创建的数据上。编写后处理步骤以连接预测数据。

例如：
您的训练数据应如下所示：

I\tO
saw\tO
a\tO
Big\tB-MyName
Red\tI-MyName
Apple\tI-MyName
Tree\tO-MyName
.\tO<br/>

所以基本上，您使用[ 0, B-MyName , I-MyName , O-MyName ]作为标记。我解决了类似的问题，效果很好。但请确保您有足够的数据来训练它。