应用错误收集

我正在尝试将中文分词器构建为this paper。如果我理解正确，他们会使用带有CRF ++的2标签分段方法。我的问题是，如何使该文章中的标签转换（例如T（-1）C（0）T（0））作为CRF ++中的特征模板？例如，对于此类培训数据：

共B

同M

创B

造M

美B＆lt; - 当前词

好M

的B

新B

世B

纪M

是否可以具有特征T（-1）C（0）T（0） - ＆gt; CR / C ++中的M /美元/ B？我已经尝试添加特征tempalte，如U01：％x [-1,1] /％x [0,0] /％x [0,1]，但失败了。我也很困惑，因为B / I标签是我们想要在测试数据中标记的标签（例如原始中文句子），为什么可以在标签中使用标签作为特征呢？或者我误解了什么？

像T（-1）C（0）T（0） - ＆gt;的特征; CRF ++中的M /美元/ B可以表示为：

B01：％×[0,0]

注意区别。 B，不是U

如果您使用U01：％x [0,0]，则表示像＆＃34;美/ B＆＃34;这样的功能。

当我6年前第一次使用CRF ++时，这也让我感到困惑。希望这可以帮到你。

我应该提到在CRF中，功能的描述将包括标签。我的意思是，以下是0-1功能： 当前角色是＆＃34;美＆＃34;目前的标签是＆＃34; B＆＃34;

什么＆＃34;模板＆＃34;在CRF ++（这是一个工具实现的CRF）中，确实是在给定模板中定义的上下文的情况下枚举所有标签。

因此在您的示例中，U01：％x [0,0]会自动引入2个功能：＆＃34; U01：美_y = B＆＃34;和＆＃34; U01：美_y = M＆＃34;

如何在CRF ++中使用目标标签作为功能？

1 个答案: