我正在尝试将中文分词器构建为this paper。如果我理解正确,他们会使用带有CRF ++的2标签分段方法。我的问题是,如何使该文章中的标签转换(例如T(-1)C(0)T(0))作为CRF ++中的特征模板?例如,对于此类培训数据:
共B
同M
创B
造M
美B< - 当前词
好M
的B
新B
世B
纪M
是否可以具有特征T(-1)C(0)T(0) - > CR / C ++中的M /美元/ B?我已经尝试添加特征tempalte,如U01:%x [-1,1] /%x [0,0] /%x [0,1],但失败了。我也很困惑,因为B / I标签是我们想要在测试数据中标记的标签(例如原始中文句子),为什么可以在标签中使用标签作为特征呢?或者我误解了什么?
答案 0 :(得分:0)
像T(-1)C(0)T(0) - >的特征; CRF ++中的M /美元/ B可以表示为:
B01:%×[0,0]
注意区别。 B,不是U
如果您使用U01:%x [0,0],则表示像"美/ B"这样的功能。
当我6年前第一次使用CRF ++时,这也让我感到困惑。希望这可以帮到你。
我应该提到在CRF中,功能的描述将包括标签。 我的意思是,以下是0-1功能: 当前角色是"美"目前的标签是" B"
什么"模板"在CRF ++(这是一个工具实现的CRF)中,确实是在给定模板中定义的上下文的情况下枚举所有标签。
因此在您的示例中,U01:%x [0,0]会自动引入2个功能: " U01:美_y = B"和" U01:美_y = M"