如何在CRF ++中使用目标标签作为功能?

时间:2015-12-18 11:52:46

标签: nlp text-segmentation crf crf++

我正在尝试将中文分词器构建为this paper。如果我理解正确,他们会使用带有CRF ++的2标签分段方法。我的问题是,如何使该文章中的标签转换(例如T(-1)C(0)T(0))作为CRF ++中的特征模板?例如,对于此类培训数据:

共B

同M

创B

造M

美B< - 当前词

好M

的B

新B

世B

纪M

是否可以具有特征T(-1)C(0)T(0) - > CR / C ++中的M /美元/ B?我已经尝试添加特征tempalte,如U01:%x [-1,1] /%x [0,0] /%x [0,1],但失败了。我也很困惑,因为B / I标签是我们想要在测试数据中标记的标签(例如原始中文句子),为什么可以在标签中使用标签作为特征呢?或者我误解了什么?

1 个答案:

答案 0 :(得分:0)

像T(-1)C(0)T(0) - >的特征; CRF ++中的M /美元/ B可以表示为:

B01:%×[0,0]

注意区别。 B,不是U

如果您使用U01:%x [0,0],则表示像"美/ B"这样的功能。

当我6年前第一次使用CRF ++时,这也让我感到困惑。希望这可以帮到你。

我应该提到在CRF中,功能的描述将包括标签。 我的意思是,以下是0-1功能: 当前角色是"美"目前的标签是" B"

什么"模板"在CRF ++(这是一个工具实现的CRF)中,确实是在给定模板中定义的上下文的情况下枚举所有标签。

因此在您的示例中,U01:%x [0,0]会自动引入2个功能: " U01:美_y = B"和" U01:美_y = M"